Определение важности ключевых слов в запросе

130

Vyacheslav Tikhonov

24 мая 2002, 09:03

2001

Вопрос собственно в чем. Разбив запрос пользователя на отдельные термы и определив их частоту, можно выдвинуть гипотезу о том, что в этом запросе более редкие слова точнее характеризуют то, что нужно пользователю.

Например, берем запрос

http://ya.ru/yandsearch?text=%F0%E0%F1%EA%F0%F3%F2%EA%E0+%F1%E0%E9%F2%E0+%E2+%EF%EE%E8%F1%EA%EE%E2%E8%EA%E0%F5&rpt=rad (раскрутка сайта в поисковиках).

Яндекс дает следующую статистику:

раскрутка: 501357, сайта: 36593150, в: 605867218, поисковиках: 207446

Согласно гипотезе наибольший приоритет здесь могут получить ключевые слова "раскрутка" и "поисковики" как слова, у которых частота на 2 с лишним порядка ниже частоты слова "сайт" (предлог "в" согласно второму закону Зипфа не учитывается).

Следовательно, логично было давать документам, в которых встречаются слова "раскрутка" и "поисковики" без "сайт" рейтинг больше, чем, скажем, для документов со словами "раскрутка" и "сайт" без слова "поисковики".

Можно ли как-то теоретически обосновать выдвинутую гипотезу или это чистая эвристика?

122

mager

24 мая 2002, 10:38

#1

Насколько я знаю сейчас в поисковых системах работает алгоритм близкий к этому для определения самой релевантной странице на сайте, только учитвается кол-во поисковых слов не во всех документах поисковой базы, а именно на страницах данного сайта.

Вес слова в документе определяется как

P=(частота слова в документе)* Ln (общее кол-во документов/кол-во документов со словом)

Ln (кол-во документов со словом/общее кол-во документов) - так называемая инверсионная частота.

Чем она больше, то есть чем больше есть страниц на сайте с данным словом, тем вес слова в документе меньше.

Естественно это справедливо только для неоднословных запросов.

Микс-Юни (http://mixmarket.biz/doc/partners/uni/overview/?from=mager_se) - агрегатор партнерских программ, более 150 программ в одном интерфейсе Russian Affiliate Days (http://affdays.ru) - первая конференция по маркетингу с оплатой за результат, 4-5 октября 2012 г.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

F

116

funsad

24 мая 2002, 11:05

#2

Первоначальное сообщение от Vyacheslav Tikhonov
Можно ли как-то теоретически обосновать выдвинутую гипотезу или это чистая эвристика?

Думаю, что есть и обоснование гипотезы. По крайней мере, интуитивно понятно, что с увеличением выборки документов, которые содержат нужное слово, падает процент релевантных документов. Чем больше частота слова, тем, как правило, больше число контекстов, в которых оно встречается. А пользователь ищет только один контекст.

Следовательно, если все слова запроса являются ключевыми (а не просто незначащие прилагательные или глаголы), то больший приоритет редким словам должен давать лучший результат. Но это, как я уже заметил, не работает в случае, когда пользователь пишет запрос на естественном языке. Например, запрос "поисковики релевантность" (частоты в Яндексе 140503 и 19427) прекрасно отвечает требованиям алгоритма, но уже запрос "терминологическое понимание релевантности поисковиков" (частоты 48652, 1136643, 27526 и 199321) будет отрабатывать заметно хуже.

С уважением,

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

298

Григорий Селезнев

24 мая 2002, 11:22

#3

можно проверить это на примере сайтов находящих в поисковиках - разделив сайты на тематические и каталоги.

298

Григорий Селезнев

24 мая 2002, 11:33

#4

кстати, почему по запросу "бизнес" и "бизнес бизнес" результаты практически на всех машинах разные ? это же как искать масло и масло масленное ... хотя и в этом есть плюс - это путь к определению математики посковой машины ...

[Удален]

24 мая 2002, 11:53

#5

Первоначальное сообщение от Professor
кстати, почему по запросу "бизнес" и "бизнес бизнес" результаты практически на всех машинах разные ? это же как искать масло и масло масленное ... хотя и в этом есть плюс - это путь к определению математики посковой машины ...

А меня просто бесит что разные результаты по запросам "баден" и "баден баден". Понятно, что города разные, но! по первому запросу он выдает именно про тот Баден-Баден, который в Германии! 😡

VT

130

Vyacheslav Tikhonov

24 мая 2002, 14:14

#6

Следовательно, если все слова запроса являются ключевыми (а не просто незначащие прилагательные или глаголы), то больший приоритет редким словам должен давать лучший результат. Но это, как я уже заметил, не работает в случае, когда пользователь пишет запрос на естественном языке. Например, запрос "поисковики релевантность" (частоты в Яндексе 140503 и 19427) прекрасно отвечает требованиям алгоритма, но уже запрос "терминологическое понимание релевантности поисковиков" (частоты 48652, 1136643, 27526 и 199321) будет отрабатывать заметно хуже.

Если ввести этот запрос в Яндекс, получаем ровно 0 документов. Яндексу ведь нужна формальная релевантность, чтобы все ключевые слова из запроса были в одном документе. А если их нет, то любая поисковая машина загибается. Если же сделать меньший рейтинг самому частотному слову ("понимание") как не отражающему сути, в том же Яндексе получим 1 документ, более-менее релевантный.

Я думаю, вполне возможно подобрать какие-то экспериментальные параметры, при которых можно повышать рейтинг одних слов из запроса и не учитывать 100%-е вхождение других. Например, частоты важных слов меньше общих, скажем, на порядок.

Или это нереально?

AA

70

AlexA

24 мая 2002, 15:40

#7

Идея алгоритма хороша (думаю, что поисковики работают примерно так), но, как всегда, ее нужно доводить.

Вот пример:

чистая вода в водопроводе

чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,

релевантных документов наверху достаточно.

удалим самые частотные "в", "вода"

остается чистый водопровод и релевантные документы практически исчезают.

Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.

Другое соображение:

слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.

Значит, правило изменения веса слов должно носить не вполне монотонный характер.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

27 мая 2002, 13:52

#8

Вот пример:
чистая вода в водопроводе
чистая: 3114222, вода: 13589857, в: 583801901, водопроводе: 98937,
релевантных документов наверху достаточно.
удалим самые частотные "в", "вода"
остается чистый водопровод и релевантные документы практически исчезают.
Возможно, это связано с тем, что элементом языка являются не только слова, но и устойчивые словосочетания.

Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?

Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.

Другое соображение:
слово с опечаткой будет, естественно, самым низкочастотным словом в запросе (предположим, есть такие документы). Но нельзя же на него ориентироваться при ранжировании запроса.
Значит, правило изменения веса слов должно носить не вполне монотонный характер.

Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

27 мая 2002, 15:06

#9

Первоначальное сообщение от Vyacheslav Tikhonov

Не совсем так. Я полагаю, подобное ранжирование нужно применять только к существительным как к потенциальным ключевым словам. Поэтому в данном запросе слово водопровод (56088 документов) будет характеризовать именно контекст, в котором нужно искать остальные введенные в запросе слова. Ведь любой документ без слова "водопровод", но с чистой водой (109462 документов), уже нерелевантен, не так ли?
Что же касается словосочетания "чистая вода", его должны вытянуть алгоритмы, определяющие расстояние между словами, но с меньшим рейтингом, нежели для водопровода.

О чем тут спорить? Повторюсь, что есть неплохая идея алгоритма. Черт, как всегда, прячется в деталях.

В данном случае ясно, что со словосочетаниями ситуация сложнее (их нужно "вытягивать", усложняя алгоритм). Правда, остается еще, как минимум, задачка, как отделить эти словосочетания от простых "существительных", для которых алгоритм работает.

Не совсем согласен. Если пользователь вводит запрос с ошибками, то в любом случае, какого бы высокого качества не была система, вероятность найти нужную информацию минимальна. Следовательно, и данный алгоритм здесь ничего не сможет испортить.

Так мы же говорим о достаточно длинном запросе, в котором ранжируем слова "по важности" для определения релевантных документов. Т.е. предполагается, что в запросе информация явно в избытке.

Чтобы далеко не ходить за примером, можно чуть изменить предыдущую фразу "чистая вода внтри водопровода".

Согласно данному алгоритму мы наибольший вес присваиваем словам, которые встречаются наименьшее количество раз. Очепятки как раз и являются примером таких слов, вообще говоря, они ничем не хуже "нормальных", но неизвестных словарю русского языка (aka Зализняку, академическому или расширенному) слов. Часто и документов с такими словами достаточно, если опечатка типичная, хотя в данном случае это и не так важно. Важно, что они малочастотны и неважны (а часто вредны) для смысла запроса.

Так что закон, работающий с обычными словами, должен работать и с опечатками.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Переиграть и победить: как анализировать конкурентов для продвижения сайта

VK приобрела 70% в структуре компании-разработчика red_mad_robot