- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Такой вопрос - а как Яндекс считает вес слова? Вес как-то завязан на количество найденных страниц в ответ на однословный запрос?
Для рядка слов у меня получилось вот так:
Вес - кол-во страниц
178952 - 1078034
609480 - 273395
1618714 - 124130
2977439 - 42309
Ничего не понятно из Вашего вопроса. Поясните.
Если Вы имеете ввиду вес слова в документе, то Яндекс смотрит в каких тегах он размещен, расположение этого слова, плотность, синонимы слова и т.д.
Если Вы имеете ввиду вес ссылки, в которой будет заключено то или иное нужное слово, то это зависит от качества ссылающейся страницы (то есть сколько и какого авторитета ссылаются на ту страницу, которая ссылается на Вашу).
Имелся в виду вес слова, выставляемый в переколдованном запросе. Как я могу видеть, эти веса для одинаковых слов из разных запросов совпадают.
Если Вы имеете ввиду вес слова в документе, то Яндекс смотрит в каких тегах он размещен, расположение этого слова, плотность, синонимы слова и т.д..
А можно по подробнее про плотность, про теги я с Вами согласен (b,i,h и т.д.), а вот по поводу расположения слова в тексте. Где же именно его надо размещать??? Есть какие нибудь экспериментальные подтверждения по поводу расположения слова на странице???
Имхо, разделяю точку зрения Wolf`a смотреть тут а точне смотреть миф номер один.
Idi na Rog Просьба не уводить в сторону, Вольф много чего написал про мифы (только больше воды).
Пример запросов:
продажа::2002 & чайников::46679
продажа::2002 & плит::26507
чайник::46679 & электрический::18640
То есть видно, что веса одни и те же. Более того, за две недели (что я наблюдаю) они не изменились. В связи с этим повторю вопрос - есть какая-нибудь информация, как эти веса обсчитываются? Обратно пропорционально числу найденных страниц?
Тогда веса должны плавать с течением времени. Или используется какая-то таблица заранее обсчитанная? Тогда непонятно, как быть с новыми терминами.
Пример:
г*л*о*к*у*з*д*р*а*я::1819103916
(специально пишу через звезды, чтоб статистику не портить, всего Яндекс видит 3 страницы и 2 сайта).
Кстати, на примере последнего слова здорово смотрится ранжирование - сайта-то только два. Такой "полевой" эксперимент. Четко видно например фильтрацию по кворуму.
хех :) Вы пытаетесь разбиратся с алгоритмами ранжирования,
при этом, такое ощущение, что не знаете общедоступных вещей.
1) Никакого отношения число найденных страниц
к их ранжированию не имеет.
2) Изменение позиций в серпе (и изменение веса документов)
называется Апдейтом. :) С какой периодичностью происходит,
можно увидеть в разделе Яндекс апдейты.
3) Вы вообще что хотите сделать / доказать / понять 😕
В данный момент меня интересует система выставления весов слов в переколдованных запросах. Что от чего зависит - согласитесь, сложно доподлинно сказать без экспериментов. Я обратил внимание на потенциально возможную обратную зависимость количества нахождения термина в сети к его весу. Примитивные наброски показывают вполне себе вероятность такого положения дел.
Вес документов меня слабо (в данном контексте) волнует.
PS Про общедоступные вещи - вы, наверное, хорошо знакомы с тем, что в оптимизаторской среде бытует масса "мифов" (терминология Wolf-а).
PPS Еще раз повторюсь - если есть что сказать по существу, скажите. Вопрос по-моему вполне конкретно переформулирован.
Маленькая иллюстрация - по X отложен вес, по Y - количество найденных документов. Да, размеры базы меняются. А веса, похоже, нет. Предположу, что зависимость от частот слов (которая опосредованно выходит в числе найденных документов).
Выборка маленькая, но вид графика смахивает на обычный вес = 1 / частоту
Коэффициент какой-то наверное есть еще нормирующий.
Табличка:
Вес Кол-во док
178952 1261801
609480 312614
1618714 133864
2977439 42366
135928 1544636
162315 2897524
217900 2161336
27690 15864769
1283 196059142
343468 794709
26132 14362090
2002 106916951
21380 10433841
3329 65145101
IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некторое слово встречается в документах коллекции. Таким образом понижается вес широкоиспользуемых слов.
Формула:
Где:
Числитель - количество документов в корпусе;
Знаменатель - количество документов, в которых встречается ti.
Источник: http://ru.wikipedia.org/wiki/TF-IDF
Об этом речь идет?
ООО! Оно. Спасибо огромное, Ярослав. А еще один вопросик тогда можно - а почему тогда у Яндекса получаются одинаковые веса? Количество документов-то в коллекции разное?
Например стало для веса 178952 - документов найдено 1261801 (было для этого же веса документов 1078034).