Язык запросов, препроцессинг и анализ выдачи Яндекса.

pro-maker
На сайте с 08.12.2003
Offline
281
17569

Публикация производится по согласованию с Wolf-ом, при его участии и является частичным переносом информации из предыдущих обсуждений.

В этом топике предпринята попытка обобщения возможностей анализа, предоставляемых языком запросов и особенностями их переколдовки в Яндексе.

Релевантность

Под релевантностью понимается степень соответствия запроса и найденного результата. Основным методом оценки релевантности является tf*idf–метод. Его смысл заключается в том, что чем больше частота термина в документе (tf) и редкость термина в коллекции (idf), тем выше вес документа по отношению к термину.

Препроцессинг, кворум

В запросе пользователя выявляются синтаксические связи и устанавливаются контекстные ограничения (т.е. растояния между словами). Этот процесс называется препроцессингом запроса или образно переколдовкой. Кроме того производится также фильтрация слов запроса по кворуму, т.е. назначив веса словам запроса и коэффициент полноты учитываемых в поиске слов (мягкость) можно регулировать важность слов по отношению друг к другу, а также учитываемое в поиске количество слов из запроса. Например, стоп-словам часто назначаются нулевые веса, чтобы их не учитывать, а по длинным запросам, в поиске используются не все слова.

Язык запросов Яндекса

Наиболее интересны операторы логического ИЛИ ("|") и неранжирующего И ("<<"), поскольку первый позволяет сравнивать два (несколько) запросов, а второй - фиксировать требуемые страницы, убрав из выдачи мешающие анализу результаты поиска. Из недокументированных возможностей широкоупотребим параметр rd, добавление которого с нулевым значением (&rd=0) в URL результатов поиска позволяет посмотреть также страницы, отфильтрованные по контексту запроса.

В соответствии с языком запросов Яндекса пользователь может самостоятельно назначить веса словам, а также установить растояния между словами. В качестве начального лучше использовать вариант, предлагаемый самим Яндексом, например, "поисковая оптимизация" переколдовывается как (поисковая::17085 & оптимизация::35270)//6. Препроцессинг может вносить в запрос дополнительные слова, например, для запроса "что такое пипелац" переколдовка выглядит как (%(!+что::204 &/(1 1) !+такое::4876) &/(1 1) пипелац::1819103916 &/(1 1) !%это::370 &/(-2 4) %означает::23971 &/(-2 4) %аббревиатура::465115 &/(-2 4) %расшифровывается::253049).

Результат препроцессинга запроса можно посмотреть в серпе, в ссылке на "сохраненную копию" есть параметр "regtext", значение которого и содержит переколдовку. Удобен плагин Коли Дубра, который помещает переколдовку ниже строки статистики "Запросов за месяц ..."

С помощью языка запросов можно искать информацию по определенному сайту, например, (переколдовка << url="forum.searchengines.ru/*").

Вариационный анализ

Запросом (слово1::вес1|слово2::вес2), меняя вес1 и вес2 можно менять релевантность слова1 и слова2 относительно друг друга. Релевантность округляется (в ортодоксальной этимологии "ступеньки Миныча"), поэтому добавив +1 к весу1, слово1 скорее всего не обойдет слово2 в выдаче, а порядок в выдаче собственно и есть отражение релевантности анализируемых документов. Но методом итераций можно подобрать вес1ступенька, при котором подзапрос "слово1" обойдет подзапрос "слово2".

Например, спрашиваем (кондиционеры|попугаи), получаем переколдовку (кондиционеры::6411 | попугаи::188604)//6, ставим в строку запроса (кондиционеры::6411 | попугаи::188604), в топе - "кондиционеры" (страницы прокачанные по "кондиционерам"). Уменьшим вес "кондиционеров": (кондиционеры::1 | попугаи::188604) - "кондиционеры" из серпа исчезают. Релевантность - число, его значение можно повысить или понизить.

pro-maker
На сайте с 08.12.2003
Offline
281
#1

На сравнении подзапросов Минычем (Игорем Миновичем Козловым) построен численный анализ ранжирования. Есть очень большие сомнения, что уважаемые коллеги из Яндекса, внимательно наблюдая и тщательно отслеживая исследования их печатной машинки, позволяют извлекать адекватную информацию. Но ХренРедькиНеСлаще, продвигающий технологию Миныча на форуме, утверждает, что логическое ИЛИ полезно в анализе ранжирования и приводит объяснения наблюдающимся некорректностям (цитата в очеловеченном варианте):

ХренРедькиНеСлаще:
Запросом ИЛИ можно сравнивать только равносильные запросы, например, из двух слов. Подзапрос, в котором больше слов, получит преимущество.

Например, для запроса ((пластиковые окна) | (Битцевская фабрика валенок)) переколдовкой является ((пластиковые::21485 & окна::5689) | (Битцевская::1641084 && фабрика::12379 & валенок::435748)). Веса слов из подзапроса по "валенкам" значительно превышают веса по "окнам". Необходимо убрать слово "Битцевская" и подзапросы можно сравнивать: ((пластиковые окна) | (фабрика валенок)).

Использованные источники информации

1. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс.

2. Алгоритм Яндекса - "поиск" и ранжирование документов.

3. Язык запросов Яндекса.

4. Разбор языка запросов в Ж.Ж.-комьюнити Кубка по поиску в Яндексе.

5. Колдунщик Коли Дубра (плагин для FireFox и Opera).

FlyAway
На сайте с 01.06.2005
Offline
439
#2

pro-maker, вариационным анализом в принципе можно сравнивать так называемые веса. Пояснение про сравнение очень кстати, спасибо! ;)

Сердюченко Андрей (http://www.serdyuchenko.ru/) Масонская ложа — SЕ-Team.ru (http://goo.gl/YIjV6h) :)
wolf
На сайте с 13.03.2001
Offline
1183
#3
pro-maker:
чем больше частота термина в документе (tf)

Прошу обратить внимание, что под частотой подразумевается количество вхождений термина (или его лемм) в документ. Наверное, правильнее было бы называть это значение частотностью, но как сложилось, так сложилось.

Думаю, не лишним будет добавить, что значение tf при определении веса документа по отношению к запросу, обычно каким-либо образом нормируется. Наиболее распространенные нормировки - по длине документа (т.е. количеству слов в нем) и по частоте самого частотного термина. Характер нормировок может быть весьма различным.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
pro-maker
На сайте с 08.12.2003
Offline
281
#4
FlyAway:
вариационным анализом в принципе можно сравнивать так называемые веса.

FlyAway, привидите пример, плз. :)

FlyAway
На сайте с 01.06.2005
Offline
439
#5

pro-maker, можно было, пока не отключили, извиняюсь ;)

.kero.
На сайте с 03.04.2005
Offline
142
#6

Виталий, Сергей, respect за структурирование.

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#7

pro-maker, спасибо за топик.

Несколько замечаний.

Двойное двоеточие "::" недокументированный оператор Яндекса, в хелпе Яндекса его нет.

Есть оператор одиночного двоеточия ":", он в хелп входит и может применяться не только к отдельным словам, но и любому подзапросу. По воздействию на выдачу двойное и одинарное двоеточие НЕ эквивалентны (нами проверялось).

Действие двойного двоеточия Яндесом то включается, то отключается (со слов Миныча).

Метод использования оператора "ИЛИ" не обязательно требует задания весов в запросе. Это может быть компенсировано спецкомпоновкой тестовых страниц. Например, ступеньки

Миныч впервые обнаружил, не используя веса и двойное двоеточие.

Не только оператор "ИЛИ" полезен для запроса. Любым запросом можно исследовать выдачу Яндекса и анализировать результат. Мы, например, готовя заранее свои контрмеры против контрмер Яндекса, используем и другую методу.А именно подачу последовательно двух запросов подряд и анализируем изменения в выдаче.

Для этого удобнее всего заранее составить сетку тестовых страниц, чтобы позиции исследуемых страниц фиксировались относительно тестовых. Моменты перескоков с позиции на позицию фиксируются.

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
.kero.
На сайте с 03.04.2005
Offline
142
#8
ХренРедькиНеСлаще:
Есть оператор одиночного двоеточия ":", он в хелп входит и может применяться не только к отдельным словам, но и любому подзапросу. По воздействию на выдачу двойное и одинарное двоеточие НЕ эквивалентны (нами проверялось).

Чисто из интереса - а чем различаются? По свойствам вроде похожи.

ХренРедькиНеСлаще:
Действие двойного двоеточия Яндесом то включается, то отключается (со слов Миныча).

Что это означает? Что в переколдовке вес как-то по другому отображается/или работает?

sky slayer
На сайте с 09.03.2005
Offline
80
#9
pro-maker:
... Уменьшим вес "кондиционеров": (кондиционеры::1 | попугаи::188604) - "кондиционеры" из серпа исчезают. Релевантность - число, его значение можно повысить или понизить.

извините дурака, откуда взялась гипотеза о том что после :: пишется именно вес слова ? я вот до сих пор никакой связи не вижу. Этот параметр может означать совершенно другое =)

ПС: Почему Яндекс не прикрывает этот баг?

pro-maker
На сайте с 08.12.2003
Offline
281
#10
ХренРедькиНеСлаще:
Это может быть компенсировано спецкомпоновкой тестовых страниц. Например, ступеньки Миныч впервые обнаружил, не используя веса и двойное двоеточие.

ХренРедькиНеСлаще, что ортодоксы именуют спецкомпоновкой тестовых страниц? :)

И, поскольку упомянули ступеньки Миныча и представляете его разработки, разъясните, пожайлуста, смысл ступенек Миныча и какую информацию можно извлечь из их анализа.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий