Имеется в виду как в Direct-е "Что еще искали люди, искавшие ...". Я так понимаю, снятая галочка "без вариантов" именно эти запросы и добавляет.
Да, если можно, было бы очень интересно полистать. мой никнейм на мэйл ру
http://www.site-auditor.ru/
Советую скачать программу и почитать к ней инструкцию. Там все довольно подробно расписано. Принцип такой - берем ключевики и постепенно их расширяем/добавляем связанные с ними. От общих к частным.
На том и порешим. Пойду копаться в остальных частях головоломки :)
Возможно несколько не в тему, но есть же методика составления ядра запросов, которая рассказывалась в рассылке Ашманова. И утилитки вроде Site Auditor.
:) Так как быть с одинаковыми весами? Разброс значений довольно большой, маловероятно, что с ростом коллекций веса не "плывут", как если бы они считались по классической TF-IDF.
Кстати, у Яндексоидов на РОМИП'06 другой несколько вариант, там чуть сложнее, чем просто одиночный логарифм. Мне кажется (судя по виду графика), что их вариант без логарифмирования.
ООО! Оно. Спасибо огромное, Ярослав. А еще один вопросик тогда можно - а почему тогда у Яндекса получаются одинаковые веса? Количество документов-то в коллекции разное?
Например стало для веса 178952 - документов найдено 1261801 (было для этого же веса документов 1078034).
Маленькая иллюстрация - по X отложен вес, по Y - количество найденных документов. Да, размеры базы меняются. А веса, похоже, нет. Предположу, что зависимость от частот слов (которая опосредованно выходит в числе найденных документов).
Выборка маленькая, но вид графика смахивает на обычный вес = 1 / частоту
Коэффициент какой-то наверное есть еще нормирующий.
Табличка:
Вес Кол-во док
178952 1261801
609480 312614
1618714 133864
2977439 42366
135928 1544636
162315 2897524
217900 2161336
27690 15864769
1283 196059142
343468 794709
26132 14362090
2002 106916951
21380 10433841
3329 65145101
В данный момент меня интересует система выставления весов слов в переколдованных запросах. Что от чего зависит - согласитесь, сложно доподлинно сказать без экспериментов. Я обратил внимание на потенциально возможную обратную зависимость количества нахождения термина в сети к его весу. Примитивные наброски показывают вполне себе вероятность такого положения дел.
Вес документов меня слабо (в данном контексте) волнует.
PS Про общедоступные вещи - вы, наверное, хорошо знакомы с тем, что в оптимизаторской среде бытует масса "мифов" (терминология Wolf-а).
PPS Еще раз повторюсь - если есть что сказать по существу, скажите. Вопрос по-моему вполне конкретно переформулирован.
Idi na Rog Просьба не уводить в сторону, Вольф много чего написал про мифы (только больше воды).
Пример запросов:
продажа::2002 & чайников::46679
продажа::2002 & плит::26507
чайник::46679 & электрический::18640
То есть видно, что веса одни и те же. Более того, за две недели (что я наблюдаю) они не изменились. В связи с этим повторю вопрос - есть какая-нибудь информация, как эти веса обсчитываются? Обратно пропорционально числу найденных страниц?
Тогда веса должны плавать с течением времени. Или используется какая-то таблица заранее обсчитанная? Тогда непонятно, как быть с новыми терминами.
Пример:
г*л*о*к*у*з*д*р*а*я::1819103916
(специально пишу через звезды, чтоб статистику не портить, всего Яндекс видит 3 страницы и 2 сайта).
Кстати, на примере последнего слова здорово смотрится ранжирование - сайта-то только два. Такой "полевой" эксперимент. Четко видно например фильтрацию по кворуму.