Скрипт извлечения ключевых фраз из текста

deleon · 2026-07-01T11:07:37.0000000Z

PHP-модуль для извлечения ключевых фраз из текста. Для чего это нужно ----------------------------- 1. для определения темы контента и дальнейшее формирование страницы путем поиска релевантного контента (по фразам с наибольшим весом) 2. для автоматического составления title, h1 и т.д. 3. можно сделать web-сервис для определения ключевиков online Возможности ----------------------------- 1. извлечение многословных фраз (2-х, 3-х-словных и т.д. по вашему желанию) 2. подсчет количества встречаемости фразы в тексте 3. подсчет веса фразы в тексте (по встречаемости, по местонахождению в тексте) 4. сортировка фраз по встречаемости в тексте, по весу 5. обработка как чистого, так и html-текста 6. простая интеграция (с примером) Ограничения ----------------------------- 1. PHP 4+ version Пример работы скрипта ----------------------------- http://www.abifind.com/phrases/ Стоимость скрипта ----------------------------- Первым трем заказавшим - $2 (далее $5)

173

deleon

30 января 2007, 17:29

#11

apru:
Попробовал. Не очень то понятно.

Что непонятного? :)

Берем текст (html-исходник, URL) и получаем список фразы, наиболее характеризующие этот текст. Далее эти фразы можно употреблять как душе угодно, хоть title из них составляй, хоть keywords.

А ссылка, которую я дал - это лишь пример сервиса, построенного на моем скрипте.

509

MiRaj

30 января 2007, 17:32

#12

deleon, попробуйте сравнить результаты вашего скрипта с этими

http://miralab.ru/tools/service/#plotnost

особенно с первым в разделе

Муркетолог. 100 пресс-релизов с прямыми ссылками за 150 баксов? Легко! (http://b2blogger.com) Статейный маркетинг - лучшее лекарство от Минусинска! (http://miralinks.ru)

173

deleon

30 января 2007, 17:37

#13

MiRaj:
deleon, попробуйте сравнить результаты вашего скрипта с этими
http://miralab.ru/tools/service/#plotnost
особенно с первым в разделе

Я не увидел там фраз, только слова... К тому же там в список включены все стоп-слова, что не есть правильно...

509

MiRaj

30 января 2007, 17:45

#14

deleon, меня больше интересует разбежность в результатах по однословным ключам.

173

deleon

30 января 2007, 18:03

#15

MiRaj:
deleon, меня больше интересует разбежность в результатах по однословным ключам.

Я же не знаю их алгоритм извлечения контента. У меня анализируется только контент заключенный между тегами <body>...</body> (есть вариант анализа всей страницы с title и мета-тегами). Может у них не анализируется содержимое alt, может не включается noindex-контент. Так что тут речь не про неправильность работы скрипта, а про идентичность анализируемого материала.

Во всех запросах, теги Google AdSense - Вопросы Приложение для google indexin

509

MiRaj

30 января 2007, 18:16

#16

deleon:
Так что тут речь не про неправильность работы скрипта, а про идентичность анализируемого материала.

Именно.

Т.е. нужно либо определиться что индексировать, либо выдать пользователю дюжину галочек для настройки :)

173

deleon

31 января 2007, 03:07

#17

MiRaj:
Именно.
Т.е. нужно либо определиться что индексировать, либо выдать пользователю дюжину галочек для настройки :)

Полностью согласен, для online сервиса, это необходимо. Похоже придется написать полноценный сервис для демонстрации работы скрипта :)

138

tyumile

31 января 2007, 05:13

#18

1. Или я ничего не понимаю, или у меня не работает... ввожу урл в виде http://www.site.ru/ - показал только одну фразу, которая там встречается только 1 раз.

2. С utf-8 не будет проблем?

173

deleon

31 января 2007, 05:42

#19

tyumile:
1. Или я ничего не понимаю, или у меня не работает... ввожу урл в виде http://www.site.ru/ - показал только одну фразу, которая там встречается только 1 раз.
2. С utf-8 не будет проблем?

Если можно, сайт в личку. Погоняю :)

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Вышел новый Яндекс Браузер с YandexGPT и YandexART