Выделение ключевых слов.

123 4
VT
На сайте с 27.01.2001
Offline
130
#11
Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

По моим тестам пока попадает много "лишних" слов, за которые нельзя зацепить рекламу, плюс попадают непрезентативные слова из меню, верхней или нижней шапки.

Я бы согласился со списком, если бы ты на ходу определял тип страницы и давил лишние ключевые слова для страниц рубрик, например, так:

1) навигационные страницы - разделы, рубрики, теги на сайте

Не важен контент (аннотации документов), важны тексты ссылок разделов и элементы навигации

2) информационные страницы - полный текст страницы с информацией

Не важны элементы навигации, только уникальный текст

3) транзакционные страницы

Важны и элементы навигации, и уникальный текст

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.

У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.

K
На сайте с 27.11.2000
Offline
80
#12
Vyacheslav Tikhonov:
По моим тестам пока попадает много "лишних" слов...

...

Не важны элементы навигации, только уникальный текст
...
У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.

Да, полностью согласен, но мы приходим к той же проблеме, что и была озвучена ранее. Надо выкачивать некоторую окрестность страницы, чтобы сличить их "на просвет" (не менее 3-5), и их надо еще найти.

А в индексе у нас и вправду есть данные о разментке, о навигационной разметке в том числе, но - вот беда - только для украинских сайтов.

С уважением, Андрей Коваленко aka Keva
SJ
На сайте с 16.03.2008
Offline
78
#13
Keva:
Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.

🍻

Очень интересно было бы на исходники поглядеть, так как балуюсь подобным ;)

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

"По моему разумению" - а немного подробнее можно узнать? Какие части речи отсекаются и т.д.

Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.

Как считается вероятность смысловой связи между словами?

Потому как результаты выдает отличные для словосочетаний.

Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂

И сейчас результаты приятно удивляют :)

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.
С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.

Именно. И баловатся эвристиками для отбрасывания "незначимого" текста на странице намного сложнее, чем сравнить "на просвет" десяток страниц с сайта...

Респект. 🍻

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
just-zone
На сайте с 15.03.2009
Offline
30
#14

а помоему отличный сервис !

S
На сайте с 02.04.2009
Offline
1
#15

Занятный сервис, натравил его на свой сайт, он мне ни одного ключевика на моей странице не нашел. Хотя другие плюются от переизбытка ключевиков.

Айси
На сайте с 08.01.2009
Offline
43
#16

А у меня по двум сайтам тема странно определилась. По сайту про работу - Недвижимость пишет; по порталу по коммерческой недвижимости - Супермаркеты. По второму ещё понятно, а вот по первому крайне удивлена...

Покупаю ссылки с СДЛ навсегда. Обращайтесь: 258476452. Золотой тигр - агентство Интернет-маркетинга. (http://goldentiger.ru)
K
На сайте с 27.11.2000
Offline
80
#17
Айси:
А у меня по двум сайтам тема странно определилась. По сайту про работу - Недвижимость пишет; по порталу по коммерческой недвижимости - Супермаркеты. По второму ещё понятно, а вот по первому крайне удивлена...

А дайте ссылочку. Можно в личку. Будем крутить и улучшать :)

K
На сайте с 27.11.2000
Offline
80
#18

Подвесил определение тематики вместо cgi-приложения - демоном.

DeveloperRu
На сайте с 27.02.2009
Offline
72
#19

а можно, используя эту тему, избавиться от блоков меню, оставляя чистый текст в виде больших абзацев?

когда чищу хтмл - порой, менюшки выстраиваются в одно предложение и участвуют в анализе содержимого и определения ключевых слов, это очень сильно мешает в ранжировании предложений и абзацев.

Ответы на вопросы (http://telenok.com)
SJ
На сайте с 16.03.2008
Offline
78
#20
DeveloperRu:
а можно, используя эту тему, избавиться от блоков меню, оставляя чистый текст в виде больших абзацев?

А для этого надо делать несколько "срезов" с сайта - "соседние" страницы брать и потом общие части удалять....

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий