Сергей, есть однозначное соответствие между текстовым весом термина и псевдовесом, получаемым методикой кворума. И оно никак не зависит от самого термина. Например, любые термины с текстовыми весами в интервале [1114155;1258199) имеют псевдовес 207 по методике кворума. Да и сами текстовые веса пока не изменились. Так что подмешивание в формулу IDF каких-то новых не показываемых нам частот вызывает сомнение. Мое мнение, что здесь две точки работает как и раньше, а вот формула кворума стала другой.
А запросы от ХРНС - это отдельная веселая тема ;)
Да, так оно и есть. Но в контексте нашего обсуждения гипотеза с процентной спецпереколдовкой не подтвердилась.
А там дается описание откуда таблица. Если не верите ей, то сами сделайте запрос по "спонсору" через Я.XML и посмотрите на дату.
T.R.O.N, сравните Last-Modified спонсора сегодняшнего апдейта с данными из основной базы Яндекса, вся информация здесь. Только поторопоитесь, пока страницу на сайте не сменили. Сейчас даты совпадают - 07.02.2008 12:54:10
Оператор #date работает по Last-Modified, это легко проверяется.
PPM, в топике не "шаманство" обсуждалось и не применимость к раскрутке. ТС спрашивал про "позавчера". Я привел примеры, где у "позавчера" и БР ничего общего.
А Last-Modified Яша берет и хранит в базе. Использует при сортировке по дате и при поиске с ограничением по дате. Если ваш сервер не отдает Last-Modified, то при поиске в интервале дат (любом, даже вот так #date>="1999") вы этот сайт не увидите.
Так, это понятно. Не будет же Яша орлам, у которых +2 дня, ставить пометку "послезавтра". А таких хватает. На mail.ru сейчас вообще август 2036 идет.
upyrj, +1 за Last-Modified
semenov, а вы сами-то это проверяли?
Пример 1: 2 копии морды, "позавчера" стоит не на быстророботе
http://www.yandex.ru/yandsearch?pag=u&surl=isu.ru&text=url%3D%22www.isu.ru%22&rd=0
Пример 2: топ-50 - все "позавчера", ни одного быстроробота, на некоторые из этих сайтов быстроробот, судя по всему, даже не заходит
http://www.yandex.ru/yandsearch?date=&text=%23date%3D%2220080206%22&spcctx=notfar&zone=all&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=8&to_month=2&to_year=2008&mime=all&site=&rstr=&ds=&numdoc=50
Подтверждает, хоть и косвенно, статистика слов. Запрос "туры в египет" - 22.6 млрд. "в", что более-менее согласуется с нынешним размером корпуса текстов документов. А вот однословник "в" - всего 96 млн. Подозрительно малое значение. Кроме того, в других запросах встретилось 120 млн., 300 млн., 500 млн.
С тем же "а" или нормальными словами таких сильных разногласий нет. Только с "и", "в".
Согласен с Сергеем. Запрос "туры египет" совсем не тождественен запросу "туры в египет", из которого просто взяли и выкинули стоп-слово в::0, будто его и не было. Даже в набившем оскомину РОМИП-2006 есть состававляющие показателя релевантности, в которых эти 2 запроса могут дать разные значения. Что же говорить о последних версиях алгоритма.
Константин, а четкое, однозначное определение термина "стоп-слово" у нас где-то было? То есть именно с точки зрения Яндекса, а не в толковании википедии, сторонних трудов по IR, непонятных страничек от Лебедева и т.п. На форуме периодически возникают вопросы по стоп-словам, и каждый раз мнения участников - полный "компот", имхо.
Константин, сильный образ. Иллюстрация к легендам о "черном" модераторе :)
Мне кажется, вы более дружелюбный человек. Суровый ... но, справедливый :)