Скрипт извлечения ключевых фраз из текста

12
deleon
На сайте с 16.09.2004
Offline
173
2042

PHP-модуль для извлечения ключевых фраз из текста.

Для чего это нужно

-----------------------------

1. для определения темы контента и дальнейшее формирование страницы путем поиска релевантного контента (по фразам с наибольшим весом)

2. для автоматического составления title, h1 и т.д.

3. можно сделать web-сервис для определения ключевиков online

Возможности

-----------------------------

1. извлечение многословных фраз (2-х, 3-х-словных и т.д. по вашему желанию)

2. подсчет количества встречаемости фразы в тексте

3. подсчет веса фразы в тексте (по встречаемости, по местонахождению в тексте)

4. сортировка фраз по встречаемости в тексте, по весу

5. обработка как чистого, так и html-текста

6. простая интеграция (с примером)

Ограничения

-----------------------------

1. PHP 4+ version

Пример работы скрипта

-----------------------------

http://www.abifind.com/phrases/

Стоимость скрипта

-----------------------------

Первым трем заказавшим - $2 (далее $5)

MiRaj
На сайте с 03.07.2006
Offline
509
#1

deleon, сразу просьба

1) работа по урлу (с учетом областей, закрытых для индексации)

2) русский

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)
deleon
На сайте с 16.09.2004
Offline
173
#2
MiRaj:
deleon, сразу просьба
1) работа по урлу (с учетом областей, закрытых для индексации)
2) русский

1-й пункт уже сделан + извлечение метатегов (title, description, keywords) + код ответа сервера + корректная работа с редиректами 301, 302

2-й пункт уже сделан, можно потестировать

http://www.abifind.com/phrases/

D
На сайте с 21.06.2006
Offline
168
#3

Хорошо бы иметь морфологию, ибо

2-words phrases

1 мягкой мебели 3 52.8702

1-words phrases

1 мебель 5 74.7187

2 мебели 4 57.9803

справочник кейвордов с весами ПС, ибо следующее совсем не кейворд

3 мягкой 3 52.8702

6 современные 2 36.9254

определять тематику по классификатору - верх мечтаний ;)

Appstorespy - платформа анализа мобильных сторов | Publa.io - готовая инфраструктура для приема платежей и оплаты рекламных кабинетов в бурже
deleon
На сайте с 16.09.2004
Offline
173
#4
Dash:
Хорошо бы иметь морфологию, ибо
2-words phrases
1 мягкой мебели 3 52.8702
1-words phrases
1 мебель 5 74.7187
2 мебели 4 57.9803

Здесь согласен и сейчас этим занимаюсь.

Dash:
справочник кейвордов с весами ПС, ибо следующее совсем не кейворд
3 мягкой 3 52.8702
6 современные 2 36.9254
определять тематику по классификатору - верх мечтаний ;)

Это просто рейтинг слов, в скрипте можно задавать сколько слов в фразе нужно.

deleon
На сайте с 16.09.2004
Offline
173
#5

Добавил поддержку русской морфологии 🚬

В скрипте ее можно включить/выключить через глобальную переменную.

С включенной морфологией работа скрипта несколько замедляется.

A0
На сайте с 30.01.2007
Offline
0
#6

Можно ли настроить скрипт на работу совместно с CMS (конкретную не могу назвать, т.к. ещё не выбрал)?

Мой проект Одитор.Ру (http://www.oditor.ru)
deleon
На сайте с 16.09.2004
Offline
173
#7
Alexej07:
Можно ли настроить скрипт на работу совместно с CMS (конкретную не могу назвать, т.к. ещё не выбрал)?

Вся настройка сводится к подключению модуля через директиву require и вызова 1-2 функций.

В результате имеем ассоциированный массив с элементами: phrase, count, weight

Из примера:


//------------------------------------------------------------------

require_once(dirname(__FILE__).'/abi7-phrases.php');

//------------------------------------------------------------------

// convert text to words array (second parameter is min words length)

$WORDS_ARRAY = abi7_text_to_words_array($EXAMPLE_TEXT, 3);

//------------------------------------------------------------------

// get 4-words phrases

$PHRASES = abi7_get_phrases($WORDS_ARRAY, 4, SORT_BY_WEIGHT);

//------------------------------------------------------------------

В результате имеем в массиве $PHRASES список фраз отсортированных по весу (в порядке убывания веса). Также можно получить 2-х, 3-х, 5-и и т.д. словных фраз. Нужно всего лишь вызвать функцию abi7_get_phrases с необходимым параметром. В любом случае, я 12 часов в сутки нахожусь online, так что помогу 🚬

A
На сайте с 22.01.2007
Offline
3
#8

Попробовал. Не очень то понятно.

MiRaj
На сайте с 03.07.2006
Offline
509
#9

deleon, не увидел работу с русскоязычным сайтом по урлу.

Куда что вводить? :)

deleon
На сайте с 16.09.2004
Offline
173
#10
MiRaj:
deleon, не увидел работу с русскоязычным сайтом по урлу.
Куда что вводить? :)

Можно вместо текста в textarea ввести URL, начинающийся с http://

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий