cymax

cymax
Рейтинг
16
Регистрация
28.08.2007
wolf:
Тогда надо две обратные частоты указывать - IDF и CF/D. А "безпроцентное" вхождение дубля термина с новой частотой в переколдованный запрос влияет на прохождение кворума. И, по логике, спецоператор для этого нового веса нужен, не ::, а какой-то другой. Поэтому меняя значение ::, мы меняем только часть веса,

Сергей, есть однозначное соответствие между текстовым весом термина и псевдовесом, получаемым методикой кворума. И оно никак не зависит от самого термина. Например, любые термины с текстовыми весами в интервале [1114155;1258199) имеют псевдовес 207 по методике кворума. Да и сами текстовые веса пока не изменились. Так что подмешивание в формулу IDF каких-то новых не показываемых нам частот вызывает сомнение. Мое мнение, что здесь две точки работает как и раньше, а вот формула кворума стала другой.

А запросы от ХРНС - это отдельная веселая тема ;)

wolf:
cymax:

могу сказать, что второй термин из-за оператора % не увеличивает QL (число слов запроса в кворуме)

Судя по всему, смысл этого оператора как раз таки и заключается в том, чтобы исключать термин из расчета по кворуму.

Да, так оно и есть. Но в контексте нашего обсуждения гипотеза с процентной спецпереколдовкой не подтвердилась.

А там дается описание откуда таблица. Если не верите ей, то сами сделайте запрос по "спонсору" через Я.XML и посмотрите на дату.

T.R.O.N, сравните Last-Modified спонсора сегодняшнего апдейта с данными из основной базы Яндекса, вся информация здесь. Только поторопоитесь, пока страницу на сайте не сменили. Сейчас даты совпадают - 07.02.2008 12:54:10

Оператор #date работает по Last-Modified, это легко проверяется.

PPM, в топике не "шаманство" обсуждалось и не применимость к раскрутке. ТС спрашивал про "позавчера". Я привел примеры, где у "позавчера" и БР ничего общего.

А Last-Modified Яша берет и хранит в базе. Использует при сортировке по дате и при поиске с ограничением по дате. Если ваш сервер не отдает Last-Modified, то при поиске в интервале дат (любом, даже вот так #date>="1999") вы этот сайт не увидите.

SergoZD:
используется дата из Last-Modified, и показывается во всех случаях(?), когда выданная дата не превыщает текущую дату поиска.

Так, это понятно. Не будет же Яша орлам, у которых +2 дня, ставить пометку "послезавтра". А таких хватает. На mail.ru сейчас вообще август 2036 идет.

upyrj, +1 за Last-Modified

semenov, а вы сами-то это проверяли?

Пример 1: 2 копии морды, "позавчера" стоит не на быстророботе

http://www.yandex.ru/yandsearch?pag=u&surl=isu.ru&text=url%3D%22www.isu.ru%22&rd=0

Пример 2: топ-50 - все "позавчера", ни одного быстроробота, на некоторые из этих сайтов быстроробот, судя по всему, даже не заходит

http://www.yandex.ru/yandsearch?date=&text=%23date%3D%2220080206%22&spcctx=notfar&zone=all&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=8&to_month=2&to_year=2008&mime=all&site=&rstr=&ds=&numdoc=50

Каширин:
Не это подтверждает Число документов не говорит нам о числе вхождений в каждом из найденных документов

В том колдунщике, который жив: в:50, и:51, а:218.

Подтверждает, хоть и косвенно, статистика слов. Запрос "туры в египет" - 22.6 млрд. "в", что более-менее согласуется с нынешним размером корпуса текстов документов. А вот однословник "в" - всего 96 млн. Подозрительно малое значение. Кроме того, в других запросах встретилось 120 млн., 300 млн., 500 млн.

С тем же "а" или нормальными словами таких сильных разногласий нет. Только с "и", "в".

wolf:
Вроде никогда не была одинаковой. Хоть стоп-слова и игнорировались, но расстояния между словами при этом - нет. В первом случае расстояние между словами "туры" и "египет" равно 2, а во-втором - 1. Яндекс это всегда учитывал, насколько я помню

Согласен с Сергеем. Запрос "туры египет" совсем не тождественен запросу "туры в египет", из которого просто взяли и выкинули стоп-слово в::0, будто его и не было. Даже в набившем оскомину РОМИП-2006 есть состававляющие показателя релевантности, в которых эти 2 запроса могут дать разные значения. Что же говорить о последних версиях алгоритма.

Каширин:
Либо мы должны говорить о том, что сам термин "стоп-слово" устарел и нуждается в ревизии.

Константин, а четкое, однозначное определение термина "стоп-слово" у нас где-то было? То есть именно с точки зрения Яндекса, а не в толковании википедии, сторонних трудов по IR, непонятных страничек от Лебедева и т.п. На форуме периодически возникают вопросы по стоп-словам, и каждый раз мнения участников - полный "компот", имхо.

Каширин:
Правила форума нарушаем?!

Константин, сильный образ. Иллюстрация к легендам о "черном" модераторе :)

Мне кажется, вы более дружелюбный человек. Суровый ... но, справедливый :)

Всего: 123