Выделение ключевых слов.

80

Keva

13 февраля 2009, 12:58

6762

Я тут упражняюсь слегка с определялкой ключевых словдля страниц. Лежит тут: http://keva.ru/docTheme.html

На днях ещё выложу туда же определение тематики документа. Если заметите на своих сайтах какой бред в её результатах - не сочтите за труд, дайте знать.

С уважением, Андрей Коваленко aka Keva

319

Константинович

13 февраля 2009, 14:49

#1

Keva:
Лежит тут: keva.ru/docTheme.html

По этому адресу выдалась 404 ошибка.

Keva:
Я тут упражняюсь слегка с определялкой ключевых словдля страниц.

Эта программа определяет набор ключевых слов для каждой страницы, под которые она заточена? Если так, то хорошая программа. Но, к сожалению, скачать программу не могу :(

Нужны финансы? Быстрая скупка (http://dragmettorg.com/skupka_zolota/). Цены на сайте. А потом отыграй из на казино онлайн правила (http://premium-games.ru/)

287

El_grapaduro

13 февраля 2009, 14:52

#2

Not Found

The requested URL /docTheme.html was not found on this server.

Бесплатный курс по SEO продвижению и аудиту сайтов ( http://webimho.ru/topic/11569/ )

K

80

Keva

13 февраля 2009, 15:07

#3

Пардон, не ту ноту взял :)

http://keva.ru/docThema.html :-)

205

Цахес

13 февраля 2009, 20:45

#4

Keva:
Я тут упражняюсь слегка с определялкой ключевых словдля страниц.

И чем эта определялка лучше уже существующих сервисов?

- Хорошие и плохие тексты для ваших сайтов (http://www.textsale.ru/team57397.html). - Удаленная работа. Вакансия копирайтера/рерайтера. (http://advego.ru/6myq8sgvKk) - Быстрое составление семантического ядра (https://topvisor.ru/?inv=39380).

VT

130

Vyacheslav Tikhonov

13 февраля 2009, 21:20

#5

Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?

319

Константинович

13 февраля 2009, 21:23

#6

Жалко, что это сервис, а не программулина :(

K

80

Keva

13 февраля 2009, 21:57

#7

Vyacheslav Tikhonov:
Андрей, а это не та же прога, которая сейчас работает в Мета.Контексте?

Нет. Там работает обратный алгоритм, который, можно сказать, индексирует все тексты объявлений, а страницу считает запросом. То есть "поиск наоборот". Получается набор рекламных объявлений, которые можно показать на странице.

А дальше уже Лёша Кирдин включает свои эвристики.

Keva добавил 14.02.2009 в 00:58

Константинович:
Жалко, что это сервис, а не программулина :(

А что мешает пользоваться так? Я его ближайшее время буду поддерживать. И даже развивать.

Keva добавил 14.02.2009 в 01:00

Цахес:
И чем эта определялка лучше уже существующих сервисов?

Вероятно, ничем. Или чем-то. Просто это побочный выхлоп от моего текущего направления работы. И я надеюсь на отклики и замечания.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

80

Keva

25 февраля 2009, 16:30

#8

Выложил пре-альфу определения тематики документа.

VT

130

Vyacheslav Tikhonov

26 февраля 2009, 00:39

#9

Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.

Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.

K

80

Keva

26 февраля 2009, 09:17

#10

Vyacheslav Tikhonov:
Андрей, ты бы для понимания работы сервиса выложил какую-то справочную информацию, что ли. Например, сформулировал задачу и написал, что именно в результате ты хочешь получить.
Пока видна попытка извлечения лексических цепочек (устойчивых словосочетаний), но без учета параметров коллекции других документов, взятых с того же сайта. То есть введенная страница как бы "висит" в воздухе, а лексикон ничего не дает при ранжировании слов, поэтому результаты какие-то непонятные.

Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.

Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂

Keva добавил 26.02.2009 в 12:20

Vyacheslav Tikhonov:
...но без учета параметров коллекции других документов, взятых с того же сайта...

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.

С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Дзен реализовал для авторов возможность вывода денег через СПБ