Как Яндекс считает вес?

10

eolin

15 февраля 2007, 14:08

932

Такой вопрос - а как Яндекс считает вес слова? Вес как-то завязан на количество найденных страниц в ответ на однословный запрос?

Для рядка слов у меня получилось вот так:

Вес - кол-во страниц

178952 - 1078034

609480 - 273395

1618714 - 124130

2977439 - 42309

80

milokv

15 февраля 2007, 14:58

#1

Ничего не понятно из Вашего вопроса. Поясните.

ГА

128

Гайдамака Артем

15 февраля 2007, 15:57

#2

Если Вы имеете ввиду вес слова в документе, то Яндекс смотрит в каких тегах он размещен, расположение этого слова, плотность, синонимы слова и т.д.

Если Вы имеете ввиду вес ссылки, в которой будет заключено то или иное нужное слово, то это зависит от качества ссылающейся страницы (то есть сколько и какого авторитета ссылаются на ту страницу, которая ссылается на Вашу).

E

10

eolin

20 марта 2007, 12:48

#3

Имелся в виду вес слова, выставляемый в переколдованном запросе. Как я могу видеть, эти веса для одинаковых слов из разных запросов совпадают.

52

Idi na Rog

20 марта 2007, 13:21

#4

Гайдамака Артем:
Если Вы имеете ввиду вес слова в документе, то Яндекс смотрит в каких тегах он размещен, расположение этого слова, плотность, синонимы слова и т.д..

А можно по подробнее про плотность, про теги я с Вами согласен (b,i,h и т.д.), а вот по поводу расположения слова в тексте. Где же именно его надо размещать??? Есть какие нибудь экспериментальные подтверждения по поводу расположения слова на странице???

Имхо, разделяю точку зрения Wolf`a смотреть тут а точне смотреть миф номер один.

Сайт всё ниже в Яндекс кобласит Можно ли так сделать?

E

10

eolin

20 марта 2007, 15:21

#5

Idi na Rog Просьба не уводить в сторону, Вольф много чего написал про мифы (только больше воды).

Пример запросов:

продажа::2002 & чайников::46679

продажа::2002 & плит::26507

чайник::46679 & электрический::18640

То есть видно, что веса одни и те же. Более того, за две недели (что я наблюдаю) они не изменились. В связи с этим повторю вопрос - есть какая-нибудь информация, как эти веса обсчитываются? Обратно пропорционально числу найденных страниц?

Тогда веса должны плавать с течением времени. Или используется какая-то таблица заранее обсчитанная? Тогда непонятно, как быть с новыми терминами.

Пример:

г*л*о*к*у*з*д*р*а*я::1819103916

(специально пишу через звезды, чтоб статистику не портить, всего Яндекс видит 3 страницы и 2 сайта).

Кстати, на примере последнего слова здорово смотрится ранжирование - сайта-то только два. Такой "полевой" эксперимент. Четко видно например фильтрацию по кворуму.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

31

Bata

20 марта 2007, 15:55

#6

хех :) Вы пытаетесь разбиратся с алгоритмами ранжирования,

при этом, такое ощущение, что не знаете общедоступных вещей.

1) Никакого отношения число найденных страниц

к их ранжированию не имеет.

2) Изменение позиций в серпе (и изменение веса документов)

называется Апдейтом. :) С какой периодичностью происходит,

можно увидеть в разделе Яндекс апдейты.

3) Вы вообще что хотите сделать / доказать / понять 😕

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

10

eolin

20 марта 2007, 17:07

#7

В данный момент меня интересует система выставления весов слов в переколдованных запросах. Что от чего зависит - согласитесь, сложно доподлинно сказать без экспериментов. Я обратил внимание на потенциально возможную обратную зависимость количества нахождения термина в сети к его весу. Примитивные наброски показывают вполне себе вероятность такого положения дел.

Вес документов меня слабо (в данном контексте) волнует.

PS Про общедоступные вещи - вы, наверное, хорошо знакомы с тем, что в оптимизаторской среде бытует масса "мифов" (терминология Wolf-а).

PPS Еще раз повторюсь - если есть что сказать по существу, скажите. Вопрос по-моему вполне конкретно переформулирован.

Джон Мюллер об изменении Google: более длинный анкорный Александр Садовский на конференции

E

10

eolin

20 марта 2007, 20:55

#8

Маленькая иллюстрация - по X отложен вес, по Y - количество найденных документов. Да, размеры базы меняются. А веса, похоже, нет. Предположу, что зависимость от частот слов (которая опосредованно выходит в числе найденных документов).

Выборка маленькая, но вид графика смахивает на обычный вес = 1 / частоту

Коэффициент какой-то наверное есть еще нормирующий.

Табличка:

Вес Кол-во док

178952 1261801

609480 312614

1618714 133864

2977439 42366

135928 1544636

162315 2897524

217900 2161336

27690 15864769

1283 196059142

343468 794709

26132 14362090

2002 106916951

21380 10433841

3329 65145101

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Отчет о конференции User

199

Yaroslav_Adv

20 марта 2007, 21:07

#9

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некторое слово встречается в документах коллекции. Таким образом понижается вес широкоиспользуемых слов.

Формула:

Где:

Числитель - количество документов в корпусе;

Знаменатель - количество документов, в которых встречается ti.

Источник: http://ru.wikipedia.org/wiki/TF-IDF

Об этом речь идет?

С уважением, Ярослав Деревягин Веб-агентство "Found (http://found-it.ru)"

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

10

eolin

20 марта 2007, 21:10

#10

ООО! Оно. Спасибо огромное, Ярослав. А еще один вопросик тогда можно - а почему тогда у Яндекса получаются одинаковые веса? Количество документов-то в коллекции разное?

Например стало для веса 178952 - документов найдено 1261801 (было для этого же веса документов 1078034).

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Open AI тестирует память для ChatGPT

Что такое Power BI и зачем это нужно бизнесу