Как Яндекс перекалдовывает запросы?

12
R
На сайте с 28.01.2006
Offline
95
#11
Sonja:
stealthy, вы не могли бы точнее указать местоположение ответа или процитировать его?

походу это

Переколдовка" запроса: анализ запроса и наложение контекстных ограничений по умолчанию

--------------------------------------------------------------------------------

Основываясь на своих внутренних соображениях Яндекс для отбора документов налагает дополнительные условия на порядок следования слов (заданных в поисковом запросе) в документе и их значимость для запроса. Каждому слову из запроса Яндекс назначает вес. Вес составляется, скорее всего, по частоте встречаемости слов в эталонной коллекции документов. До сегодняшнего дня вес легко определяется для любого слова, а когда Яндекс закроет к этому доступ, то его можно будет определить из проиндексированных страниц, либо измеряя вес по эталонному слову, вес которого известен. Для редких слов вес "обрезается" на большом значении и одинаков для всех редких слов. Можно даже предположить, что "максимум" веса (число 2063133498) совсем не вес, а признак "редкого" слова, так как слов с весом более 5000000 и не равных при этом числу 2063133498, я не встречал.

Какие именно ограничения накладываются Яндексом легко определяется путем анализа URL ссылки "Найденные слова" в результатах выдачи Яндекса. Обратите особое внимание на поле "reqtext=". Если для удобства преобразовать строку URL к русскому шрифту (известно, что для преобразования в URL некоторые символы должны быть преобразованы в так называемые escape последовательности), то, например для запроса (proplex salamander сравнение профилей) подстрока URL "Найденные слова" (поле reqtext) будет выглядеть так:

&reqtext=(proplex::3637618+&&+salamander::3027057+&&/(-7+7)+сравнение::12142+&+профилей::3936)//6

Вес слова - это число, которое идет после двойного двоеточия. Двойное && между словами означает, что эти два слова могут находиться в любом месте документа. Одинарное & означает, что эти слова должны находиться в одном предложении. Конструкция &&/(-7+7) говорит, что слова salamander и сравнение должны быть в тексте не далее чем на плюс-минус семь предложений. Если бы мы увидели конструкцию &/(-2+4), то это бы означало условие " не далее чем на 4 слова вперед и два назад". //6 обозначает "мягкость" запроса равна 0,06 (смотрите далее - отбор по кворуму).

Иногда исходный запрос так переколдовывается, что некоторые слова вообще выпадают из поиска, а некоторые слова добавляются к запросу Самые яркие примеры: "что такое стеклопакет" и "человек года". "Что такое" в поиске заменяется на слова "это", "аббревиатура", "обозначает"... Вместе со словом "человек" Яндекс будет искать также "люди", а наряду со словом "года" - "лето".

У Яндекса Вы можете встретить утверждение, что пробел в поисковой фразе означает поиск в одном предложении, но как мы видим, это не соответствует действительности. Можно заметить также общую тенденцию, что чем выше вес слов, тем слабее ограничение по расстоянию между словами.

Достаточно важным является термин "предложение". Разделителем предложения могут быть точка, восклицательный и вопросительный знаки, а также некоторые тэги html кода блокового уровня, например < td>, < div>, < br>, < p> и т.д. (в том числе и "завершающие" тэги). Заметим, что "точка" НЕ ВСЕГДА делит текст на предложения (инициалы и т.п.). Имеется также ограничение на длину предложения в словах. Например, если задать ограничение при поиске "не менее 63 слов между словами в одном предложении" &/(63 2000), то ничего не будет "найдено". "Двойной" (тройной,...) разделитель считается за один.

Меняюсь тематическими ссылками с следующими тематиками: Компьютеры, Связь, Hardware, Системы безопасности! Монтаж кондиционеров (http://www.coldfresh.ru)!
stealthy
На сайте с 15.06.2006
Offline
69
#12

Цитировать не стал, мне кажется это некорректно будет по отношению к автору. Тем более, что он участвует в этом форуме, как я понимаю. Но пока я раздумывал как точнее определить местоположение - уже процитировали :).

Вообще, там можно полазать по ссылкам, которые ведут на http://blog.promosite.ru/, там есть еще кое-что обрывками по интересующей теме.

Twilight CMS (http://www.twl.ru): есть Free версия, очень проста и удобна в использовании. Консультирую по любым вопросам. Новый спорт - практическая стрельба (http://nikit.in) - не для офисного планктона.
Ёжик В Тумане
На сайте с 26.07.2006
Offline
16
#13

Все, я понял, просто в документе, который Яндекс использует в качестве эталона, "что такое?" встречается чаще, а "это" встречается реже. Еще один вопрос, все элементы (&&, // и т.д.) - это элементы языка запросов Яндекса, а вот что такое % (знак процента) в возвращенном результате?

Ушел в себя, забыл про форум.
Вернусь ли? Не знаю... Если нужен, пишите в аську...
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#14
Ёжик В Тумане:
Все, я понял, просто в документе, который Яндекс использует в качестве эталона, "что такое?" встречается чаще, а "это" встречается реже. Еще один вопрос, все элементы (&&, // и т.д.) - это элементы языка запросов Яндекса, а вот что такое % (знак процента) в возвращенном результате?

переколдовка процент

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
iexpert
На сайте с 01.09.2005
Offline
184
#15
radist:
&reqtext=(proplex::3637618+&&+salamander::3027057+&&/(-7+7)+сравнение::12142+&+профилей::3936)//6

Извините, если спрашиваю ерунду, но где это смотреть?

Спасибо за ответ.

Бойтесь ваших желаний, ибо они могут исполниться
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#16
iexpert:
Цитата:
Сообщение от radist
&reqtext=(proplex::3637618+&&+salamander::3027057+&&/(-7+7)+сравнение::12142+&+профилей::3936)//6

Извините, если спрашиваю ерунду, но где это смотреть?
Спасибо за ответ.

скрипт переколдовка

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий