Если бы ты на ходу определял тип страницы, то давил лишние ключевые слова - Поисковые технологии

130

Vyacheslav Tikhonov

26 февраля 2009, 10:38

#11

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

По моим тестам пока попадает много "лишних" слов, за которые нельзя зацепить рекламу, плюс попадают непрезентативные слова из меню, верхней или нижней шапки.

Я бы согласился со списком, если бы ты на ходу определял тип страницы и давил лишние ключевые слова для страниц рубрик, например, так:

1) навигационные страницы - разделы, рубрики, теги на сайте

Не важен контент (аннотации документов), важны тексты ссылок разделов и элементы навигации

2) информационные страницы - полный текст страницы с информацией

Не важны элементы навигации, только уникальный текст

3) транзакционные страницы

Важны и элементы навигации, и уникальный текст

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.

У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.

K

80

Keva

27 февраля 2009, 07:23

#12

Vyacheslav Tikhonov:
По моим тестам пока попадает много "лишних" слов...

...

Не важны элементы навигации, только уникальный текст
...
У тебя же есть поисковый индекс со взвешенными термами, почему не пробить его по коллекции документов и не взять ранк по каждому ключевому слову? И качать ничего не надо.

Да, полностью согласен, но мы приходим к той же проблеме, что и была озвучена ранее. Надо выкачивать некоторую окрестность страницы, чтобы сличить их "на просвет" (не менее 3-5), и их надо еще найти.

А в индексе у нас и вправду есть данные о разментке, о навигационной разметке в том числе, но - вот беда - только для украинских сайтов.

С уважением, Андрей Коваленко aka Keva

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

SJ

78

sokol_jack

27 февраля 2009, 14:12

#13

Keva:
Слава, "сервис" - это вторично. На самом деле это удобный способ тестировать те алгоритмы, над которыми я сейчас работаю.

🍻

Очень интересно было бы на исходники поглядеть, так как балуюсь подобным ;)

Первая секция - это выделенные из документа, наиболее значимые (по моему разумению) слова, описывающие его суть и актуальные, скажем, для показа рекламы или при поиске этого документа. Моя жена, к примеру, дёргает их в <meta name="keywords"...> страниц своего сайта и весьма довольна.

"По моему разумению" - а немного подробнее можно узнать? Какие части речи отсекаются и т.д.

Вторая секция - словосочетания - для меня практического значения не имеет и сделана по вскользь высказанной просьбе Антона Санченко, который spark. Там я даю потенциально значимые словосочетания, вес которых определяю как P(12) = sqrt( P(1) * P(2) * F(12) ), где F(12) - убывающая функция вероятности смысловой связи между словами. Аналогично формула распространяется и на трёхсловный случай - для словосочетаний с вклинившимся предлогом, к примеру.

Как считается вероятность смысловой связи между словами?

Потому как результаты выдает отличные для словосочетаний.

Третья секция - определение рубрики каталога <META>, к которой стоило бы отнести данный документ. Сейчас печатаются все гипотезы, соответствующим образом взвешенные. Скоро сделаю усечение маловероятных. Ну, а потом пущу это дело "в бой" 😂

И сейчас результаты приятно удивляют :)

В принципе, это можно сделать - для сайта, однако мне самому это, вроде как, сейчас не нужно, стимулов делать нету, в то время как трудозатраты достаточно велики - надо в приложение спайдер небольшой вкручивать, дёргать некоторое количество страниц, это ж и кодировать надо, и ответ не будет быстрым.
С другой стороны, мысленно обобщить по десятку обработанных страниц тематику сайта достаточно просто.

Именно. И баловатся эвристиками для отбрасывания "незначимого" текста на странице намного сложнее, чем сравнить "на просвет" десяток страниц с сайта...

Респект. 🍻

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

30

just-zone

16 марта 2009, 17:38

#14

а помоему отличный сервис !

S

1

Sevruk

2 апреля 2009, 14:20

#15

Занятный сервис, натравил его на свой сайт, он мне ни одного ключевика на моей странице не нашел. Хотя другие плюются от переизбытка ключевиков.

43

Айси

11 апреля 2009, 09:33

#16

А у меня по двум сайтам тема странно определилась. По сайту про работу - Недвижимость пишет; по порталу по коммерческой недвижимости - Супермаркеты. По второму ещё понятно, а вот по первому крайне удивлена...

Покупаю ссылки с СДЛ навсегда. Обращайтесь: 258476452. Золотой тигр - агентство Интернет-маркетинга. (http://goldentiger.ru)

K

80

Keva

16 апреля 2009, 14:59

#17

Айси:
А у меня по двум сайтам тема странно определилась. По сайту про работу - Недвижимость пишет; по порталу по коммерческой недвижимости - Супермаркеты. По второму ещё понятно, а вот по первому крайне удивлена...

А дайте ссылочку. Можно в личку. Будем крутить и улучшать :)

K

80

Keva

7 мая 2009, 07:47

#18

Подвесил определение тематики вместо cgi-приложения - демоном.

72

DeveloperRu

12 мая 2009, 08:26

#19

а можно, используя эту тему, избавиться от блоков меню, оставляя чистый текст в виде больших абзацев?

когда чищу хтмл - порой, менюшки выстраиваются в одно предложение и участвуют в анализе содержимого и определения ключевых слов, это очень сильно мешает в ранжировании предложений и абзацев.

Ответы на вопросы (http://telenok.com)

SJ

78

sokol_jack

12 мая 2009, 10:57

#20

DeveloperRu:
а можно, используя эту тему, избавиться от блоков меню, оставляя чистый текст в виде больших абзацев?

А для этого надо делать несколько "срезов" с сайта - "соседние" страницы брать и потом общие части удалять....

Курс биткоина превысил $50 тысяч

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Выделение ключевых слов.