cymax

cymax
Рейтинг
16
Регистрация
28.08.2007
dweller:
Смотря какой критерий стоп-слова - нулевой вес в запросе или непопадание в обратный индекс.

Непопадание в индекс - это круто :) http://www.yandex.ru/yandsearch?text=%D1%81%D0%B0%D0%BC%D0%BE%D0%BC%D1%83

Тоже стоп-слово. Только не в этом запросе. Очевидно, что оно тоже не в индексе ;)

Повторюсь, ситуация с "и", "в" всегда была "тяжелой", здесь я скорее поддержу Kolyaj.

Каширин, а почему вы решили, что выдача по этим 2-м запросам должна совпадать? Есть товарищи, которые желают, чтобы выдача запросов с разными падежами тоже совпадала. Но ведь не совпадает.

Сейчас Яндекс колдует эти 2 запроса как в::0 и !+В, отсюда и разница. А вообще, "и", "в" - два самых-самых высокочастотных термина в корпусе текстов документов, творческий подход к ним и раньше был.

Каширин, сейчас туры в::0 египет, это легко проверяется. Стоп-слова никуда не делись.

Пессимистов убеждать - не мое дело ...

Евгений, с мегасупергармонью, но доехали :)

Klopopryg:
Вам шапочка по фасону не подходит, да и красный цвет - слишком кричащий

Роман, фасон и цвет - дело десятое. Главное, мозги бы доехали ;)

Кольский, этим летом.

jpg 11129.jpg

Добавлю немного информации. Сделал серию тестов со термином мебель, инструмент - кворум по текстам документов. Напомню, что мебель - обычный термин, проблем с его взвешиванием нет. Колдуется, скорее всего, тривиально мебель::5046. Здесь использую его, чтобы имитировать поведение инструмента на особых терминах. Итак, первая колонка запрос, вторая - полученный вес.

1 группа

мебель &/(0 0) !%мебель 149

мебель::5046 &/(0 0) !%мебель::10 149

мебель::5046 &/(0 0) !%мебель::100 149

мебель::5046 &/(0 0) !%мебель::100000000 149

мебель::5046 &/(0 0) !%мебель::10:0 149

мебель::5046 &/(0 0) !%мебель::100000000:0 149

мебель::5046:0 &/(0 0) !%мебель::10 149

мебель::5046:0 &/(0 0) !%мебель::100000000 149

мебель::5046 &/(0 0) %мебель::5046 149

2 группа

мебель::5046 &/(0 0) мебель::5046 175

мебель::5046 &/(0 0) мебель::1000000 221

Мои комментарии:

1. Вес второго термина !%мебель не влияет на результат. Более того, отвечая на вопрос wolf об увеличении кол-ва терминов, могу сказать, что второй термин из-за оператора % не увеличивает QL (число слов запроса в кворуме) - мы по-прежнему работаем с QL=2.

В запросах первой группы лимит мягкости получился 0.2 <= S < 0.21. Пересчитав для такой мягкости и QL=2 найденный вес 149 в настоящий, получим вилку 4869 <= вес < 5760. 5046 туда попадает.

2. В запросах второй группы QL=3, т.к. нет оператора процента. Лимит мягкости в первом запросе 0.05 <= S < 0.06, во втором S < 0.01. Расчет неравенства кворума с этими весами, QL и S получается непротиворечивым.

3. По поводу ::вес:0. Видно, что на результат взвешивания нигде это не влияет. Кроме того, я сравнил выдачу однотипных запросов с :0 и без :0, и она везде совпадает. Например, для таких 3-х запросов

мебель::5046 &/(0 0) !%мебель::1000000

мебель::5046 &/(0 0) !%мебель::1000000:0

мебель::5046:0 &/(0 0) !%мебель::1000000

Как найти примеры подобной переколдовки, где влияние :0 будет заметно?

4. В варианте НПС проверялся просто термин "мебель", без эмуляции хитрой переколдовки. Результат все равно 149.

5. Подобрал особый термин "обратный" c весом 5050 (до смены алгоритма), который очень близок к 5046 для обычного термина "мебель". Для этого термина инструмент так же дает вес 149 - это кворум по текстам документов, ручную спецпереколдовку для него, естественно, не делал.

P.S. Что-то у Яндекса с кешем совсем весело стало. Глючная выдача сплошь и рядом, пробивать приходится жестоко.

cymax:
_S_:
Операторчеги добавились?

"Часы" иногда возвращаются, но в ином обличии

Проверил мою беглую гипотезу. Очень похоже, что она верна - "особые" термины колдуются с оператором %, как в старые добрые времена

недвижимость::вес &/(0 0) !%недвижимость::вес_особый

При эмуляция такой переколдовки на обычном термине без указания весов

мебель &/(0 0) !%мебель

получаем вес 149 - точно как было в варианте "мебель" с НПС.

wolf:
Я так понимаю, под "текстовым" весом подразумевается обратная частота по корпусу текстов документов?

Сергей, в обсуждении сервиса Михаила мы всегда говорили только об этих весах.

wolf:
Решение восстановления обратной частоты через формулу кворума для текстового ранжирования получается вообще элементарным, особенно если мягкость нужную задать.

Здесь и здесь я написал то же самое. Кто это тогда понял, давно не мучается вопросом, как искать "текстовые" веса.

cymax:
Он расчитан по вашему запросу, который чудесным образом выполнен по анкор-файлам, а не по текстовому.

Здесь я не совсем корректно выразил свою мысль. Никакого "чуда" конечно же нет. Речь шла всего лишь о такой комбинации этого кворумного запроса

запрос<<url="site.ru"

Оператором :: в запросе вы регулируете вес по корпусу текстов документов. Но вес, который вы в итоге определите, может оказаться разным. Например, для слова мебель

есть текст - 5046

НПС - 149

На самом деле вес в обоих случаях 5046, только для НПС заданная вами мягкость была лимитирована Яндексом. Поэтому коэффициент k в линейном уравненнии границы кворума у = k*x оказался не равным 1. Если вы определите значение этого k, то обнаружите что 149 * k <= 5046 < 150 * k.

Точно так же вес слова недвижимость был и остается 3471. А "чудо" в том, что кворумный запрос с этим словом Яндекс выполняет с мягкостью для НПС. Поэтому и вес получается 143. И при это не важно, что слово недвижимость присутствует в текстах найденных документов.

P.S. Сергей, я пишу "текстовые веса", т.к. "обратная частота по корпусу текстов документов" - ну очень уж длинно. Зачастую даже просто "веса", если из контекста понятно, о чем речь. Предложите удобный короткий термин, который будет понятен всем - с радостью воспользуюсь.

solomko, вы вроде не новичок? ;) Замечательная Margo в этом же топике дала очень хорошую подборку. От себя могу добавить первоисточник. Дальше ... уже поиск по форуму.

Каширин:
К тем, которые наводят яндексоидов на мысли про всякие "родео" - с сожалением.

Если благодаря Михаилу случилось "новогоднее ралли" в Яндексе, то ему памятник при жизни надо поставить :D

К слову сказать, сервис Миралаба не столь популярен, как ваш. Все-таки познать непот желает каждый. А "аналитики с весами" - это более редкий зверь. Конечно, рано или поздно, закроют все, что не для пользователей ПС. Но обвинять во всем Райцина ... это явный перебор.

Всего: 123