Как Яндекс считает вес?

12
E
На сайте с 31.01.2007
Offline
10
904

Такой вопрос - а как Яндекс считает вес слова? Вес как-то завязан на количество найденных страниц в ответ на однословный запрос?

Для рядка слов у меня получилось вот так:

Вес - кол-во страниц

178952 - 1078034

609480 - 273395

1618714 - 124130

2977439 - 42309

milokv
На сайте с 02.03.2006
Offline
80
#1

Ничего не понятно из Вашего вопроса. Поясните.

ГА
На сайте с 21.12.2006
Offline
128
#2

Если Вы имеете ввиду вес слова в документе, то Яндекс смотрит в каких тегах он размещен, расположение этого слова, плотность, синонимы слова и т.д.

Если Вы имеете ввиду вес ссылки, в которой будет заключено то или иное нужное слово, то это зависит от качества ссылающейся страницы (то есть сколько и какого авторитета ссылаются на ту страницу, которая ссылается на Вашу).

E
На сайте с 31.01.2007
Offline
10
#3

Имелся в виду вес слова, выставляемый в переколдованном запросе. Как я могу видеть, эти веса для одинаковых слов из разных запросов совпадают.

Idi na Rog
На сайте с 14.07.2006
Offline
52
#4
Гайдамака Артем:
Если Вы имеете ввиду вес слова в документе, то Яндекс смотрит в каких тегах он размещен, расположение этого слова, плотность, синонимы слова и т.д..

А можно по подробнее про плотность, про теги я с Вами согласен (b,i,h и т.д.), а вот по поводу расположения слова в тексте. Где же именно его надо размещать??? Есть какие нибудь экспериментальные подтверждения по поводу расположения слова на странице???

Имхо, разделяю точку зрения Wolf`a смотреть тут а точне смотреть миф номер один.

E
На сайте с 31.01.2007
Offline
10
#5

Idi na Rog Просьба не уводить в сторону, Вольф много чего написал про мифы (только больше воды).

Пример запросов:

продажа::2002 & чайников::46679

продажа::2002 & плит::26507

чайник::46679 & электрический::18640

То есть видно, что веса одни и те же. Более того, за две недели (что я наблюдаю) они не изменились. В связи с этим повторю вопрос - есть какая-нибудь информация, как эти веса обсчитываются? Обратно пропорционально числу найденных страниц?

Тогда веса должны плавать с течением времени. Или используется какая-то таблица заранее обсчитанная? Тогда непонятно, как быть с новыми терминами.

Пример:

г*л*о*к*у*з*д*р*а*я::1819103916

(специально пишу через звезды, чтоб статистику не портить, всего Яндекс видит 3 страницы и 2 сайта).

Кстати, на примере последнего слова здорово смотрится ранжирование - сайта-то только два. Такой "полевой" эксперимент. Четко видно например фильтрацию по кворуму.

Bata
На сайте с 05.06.2006
Offline
31
#6

хех :) Вы пытаетесь разбиратся с алгоритмами ранжирования,

при этом, такое ощущение, что не знаете общедоступных вещей.

1) Никакого отношения число найденных страниц

к их ранжированию не имеет.

2) Изменение позиций в серпе (и изменение веса документов)

называется Апдейтом. :) С какой периодичностью происходит,

можно увидеть в разделе Яндекс апдейты.

3) Вы вообще что хотите сделать / доказать / понять 😕

E
На сайте с 31.01.2007
Offline
10
#7

В данный момент меня интересует система выставления весов слов в переколдованных запросах. Что от чего зависит - согласитесь, сложно доподлинно сказать без экспериментов. Я обратил внимание на потенциально возможную обратную зависимость количества нахождения термина в сети к его весу. Примитивные наброски показывают вполне себе вероятность такого положения дел.

Вес документов меня слабо (в данном контексте) волнует.

PS Про общедоступные вещи - вы, наверное, хорошо знакомы с тем, что в оптимизаторской среде бытует масса "мифов" (терминология Wolf-а).

PPS Еще раз повторюсь - если есть что сказать по существу, скажите. Вопрос по-моему вполне конкретно переформулирован.

E
На сайте с 31.01.2007
Offline
10
#8

Маленькая иллюстрация - по X отложен вес, по Y - количество найденных документов. Да, размеры базы меняются. А веса, похоже, нет. Предположу, что зависимость от частот слов (которая опосредованно выходит в числе найденных документов).

Выборка маленькая, но вид графика смахивает на обычный вес = 1 / частоту

Коэффициент какой-то наверное есть еще нормирующий.

Табличка:

Вес Кол-во док

178952 1261801

609480 312614

1618714 133864

2977439 42366

135928 1544636

162315 2897524

217900 2161336

27690 15864769

1283 196059142

343468 794709

26132 14362090

2002 106916951

21380 10433841

3329 65145101

Yaroslav_Adv
На сайте с 27.09.2005
Offline
199
#9

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некторое слово встречается в документах коллекции. Таким образом понижается вес широкоиспользуемых слов.

Формула:

Где:

Числитель - количество документов в корпусе;

Знаменатель - количество документов, в которых встречается ti.

Источник: http://ru.wikipedia.org/wiki/TF-IDF

Об этом речь идет?

С уважением, Ярослав Деревягин Веб-агентство "Found (http://found-it.ru)"
E
На сайте с 31.01.2007
Offline
10
#10

ООО! Оно. Спасибо огромное, Ярослав. А еще один вопросик тогда можно - а почему тогда у Яндекса получаются одинаковые веса? Количество документов-то в коллекции разное?

Например стало для веса 178952 - документов найдено 1261801 (было для этого же веса документов 1078034).

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий