eolin

Рейтинг
10
Регистрация
31.01.2007

Имеется в виду как в Direct-е "Что еще искали люди, искавшие ...". Я так понимаю, снятая галочка "без вариантов" именно эти запросы и добавляет.

Да, если можно, было бы очень интересно полистать. мой никнейм на мэйл ру

http://www.site-auditor.ru/

Советую скачать программу и почитать к ней инструкцию. Там все довольно подробно расписано. Принцип такой - берем ключевики и постепенно их расширяем/добавляем связанные с ними. От общих к частным.

На том и порешим. Пойду копаться в остальных частях головоломки :)

Возможно несколько не в тему, но есть же методика составления ядра запросов, которая рассказывалась в рассылке Ашманова. И утилитки вроде Site Auditor.

:) Так как быть с одинаковыми весами? Разброс значений довольно большой, маловероятно, что с ростом коллекций веса не "плывут", как если бы они считались по классической TF-IDF.

Кстати, у Яндексоидов на РОМИП'06 другой несколько вариант, там чуть сложнее, чем просто одиночный логарифм. Мне кажется (судя по виду графика), что их вариант без логарифмирования.

ООО! Оно. Спасибо огромное, Ярослав. А еще один вопросик тогда можно - а почему тогда у Яндекса получаются одинаковые веса? Количество документов-то в коллекции разное?

Например стало для веса 178952 - документов найдено 1261801 (было для этого же веса документов 1078034).

Маленькая иллюстрация - по X отложен вес, по Y - количество найденных документов. Да, размеры базы меняются. А веса, похоже, нет. Предположу, что зависимость от частот слов (которая опосредованно выходит в числе найденных документов).

Выборка маленькая, но вид графика смахивает на обычный вес = 1 / частоту

Коэффициент какой-то наверное есть еще нормирующий.

Табличка:

Вес Кол-во док

178952 1261801

609480 312614

1618714 133864

2977439 42366

135928 1544636

162315 2897524

217900 2161336

27690 15864769

1283 196059142

343468 794709

26132 14362090

2002 106916951

21380 10433841

3329 65145101

В данный момент меня интересует система выставления весов слов в переколдованных запросах. Что от чего зависит - согласитесь, сложно доподлинно сказать без экспериментов. Я обратил внимание на потенциально возможную обратную зависимость количества нахождения термина в сети к его весу. Примитивные наброски показывают вполне себе вероятность такого положения дел.

Вес документов меня слабо (в данном контексте) волнует.

PS Про общедоступные вещи - вы, наверное, хорошо знакомы с тем, что в оптимизаторской среде бытует масса "мифов" (терминология Wolf-а).

PPS Еще раз повторюсь - если есть что сказать по существу, скажите. Вопрос по-моему вполне конкретно переформулирован.

Idi na Rog Просьба не уводить в сторону, Вольф много чего написал про мифы (только больше воды).

Пример запросов:

продажа::2002 & чайников::46679

продажа::2002 & плит::26507

чайник::46679 & электрический::18640

То есть видно, что веса одни и те же. Более того, за две недели (что я наблюдаю) они не изменились. В связи с этим повторю вопрос - есть какая-нибудь информация, как эти веса обсчитываются? Обратно пропорционально числу найденных страниц?

Тогда веса должны плавать с течением времени. Или используется какая-то таблица заранее обсчитанная? Тогда непонятно, как быть с новыми терминами.

Пример:

г*л*о*к*у*з*д*р*а*я::1819103916

(специально пишу через звезды, чтоб статистику не портить, всего Яндекс видит 3 страницы и 2 сайта).

Кстати, на примере последнего слова здорово смотрится ранжирование - сайта-то только два. Такой "полевой" эксперимент. Четко видно например фильтрацию по кворуму.

1 234
Всего: 33