Выделение ключевых слов.

123 4
K
На сайте с 27.11.2000
Offline
80
6762

Я тут упражняюсь слегка с определялкой ключевых словдля страниц. Лежит тут: http://keva.ru/docTheme.html

На днях ещё выложу туда же определение тематики документа. Если заметите на своих сайтах какой бред в её результатах - не сочтите за труд, дайте знать.

С уважением, Андрей Коваленко aka Keva
Константинович
На сайте с 13.09.2008
Offline
319
#1
Keva:
Лежит тут: keva.ru/docTheme.html

По этому адресу выдалась 404 ошибка.

Keva:
Я тут упражняюсь слегка с определялкой ключевых словдля страниц.

Эта программа определяет набор ключевых слов для каждой страницы, под которые она заточена? Если так, то хорошая программа. Но, к сожалению, скачать программу не могу :(

Нужны финансы? Быстрая скупка (http://dragmettorg.com/skupka_zolota/). Цены на сайте. А потом отыграй из на казино онлайн правила (http://premium-games.ru/)
El_grapaduro
На сайте с 01.09.2008
Offline
287
#2

Not Found

The requested URL /docTheme.html was not found on this server.

Бесплатный курс по SEO продвижению и аудиту сайтов ( http://webimho.ru/topic/11569/ )
K
На сайте с 27.11.2000
Offline
80
#3

Пардон, не ту ноту взял :)

http://keva.ru/docThema.html :-)

Цахес
На сайте с 15.03.2007
Offline
205
#4
Keva:
Я тут упражняюсь слегка с определялкой ключевых словдля страниц.

И чем эта определялка лучше уже существующих сервисов?

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).
VT
На сайте с 27.01.2001
Offline
130
#5

Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?

Константинович
На сайте с 13.09.2008
Offline
319
#6

Жалко, что это сервис, а не программулина :(

K
На сайте с 27.11.2000
Offline
80
#7
Vyacheslav Tikhonov:
Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?

Нет. Там работает обратный алгоритм, который, можно сказать, индексирует все тексты объявлений, а страницу считает запросом. То есть "поиск наоборот". Получается набор рекламных объявлений, которые можно показать на странице.

А дальше уже Лёша Кирдин включает свои эвристики.

Keva добавил 14.02.2009 в 00:58

Константинович:
Жалко, что это сервис, а не программулина :(

А что мешает пользоваться так? Я его ближайшее время буду поддерживать. И даже развивать.

Keva добавил 14.02.2009 в 01:00

Цахес:
И чем эта определялка лучше уже существующих сервисов?

Вероятно, ничем. Или чем-то. Просто это побочный выхлоп от моего текущего направления работы. И я надеюсь на отклики и замечания.

K
На сайте с 27.11.2000
Offline
80
#8

Выложил пре-альфу определения тематики документа.

VT
На сайте с 27.01.2001
Offline
130
#9

Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.

Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.

K
На сайте с 27.11.2000
Offline
80
#10
Vyacheslav Tikhonov:
Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.
Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.

Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.

Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂

Keva добавил 26.02.2009 в 12:20

Vyacheslav Tikhonov:
...но без учета параметров коллекции других документов, взятых с того же сайта...

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.

С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий