Тимон

Тимон
Рейтинг
74
Регистрация
08.06.2007
Цахес:
Да говорю же, все эти расчёты "вилами по воде" с погрешностью "плюс минус бесконечность".

На самом деле оценить адекватность полученных результатов достаточно просто - надо взять и посчитать с.к.о. по каждой позиции, а потом и коэфициент вариации - он нам и расскажет, о том, однородна ли выборка и можно ли ей верить.

Есть получится, что, например, для второго места средняя CTR=12% с отклонением +/-5% - то тут да - верить не стоит.

Тимон добавил 11.02.2009 в 14:42

А так как все результаты нам никто не предоставил, решайте сами - верить или нет :)

Хм... гипотез несколько, правда таких, хлипких...

1. Как вариант, ссылки на сайт проиндексировались в последний ап - Яндекс про них знает, другие поисковики - нет. И в итоге - просто сайт вылез из-за ссылочного, тока мы его не видим.

2. Второй вариант - совпало то, что доноры и акцептор хорошие (в терминах wolf'a :), что дало хороший результат

А вообще, я анализировал как-то пару сайтов по запросу "продвижение сайта" (или "раскрутка", не помню) - так вот, сайты серьезно спамились по каталогам сайтов, при этом мало покупали сейповские ссылки.

В любом случае, ждать надо

bdbd, кстати, переиндексировался уже, но в топ пока не вернулся...

wolf:
Таки там всего 8 килобайт контента и никаких окошек. ;)

Ну 8 кб - эт да, но окошко с прокруткой есть. Текст из него в индексе...

wolf:
Похоже на то. Ингейта что-то тоже не видать. Шоу становится увлекательным :)

Н-да уж...

...при этом сайты типа www.optimism.ru пока живы.

Такс, кажется после сегодняшнего апа еще парочка сайтов со скрытым текстом вылетело.... Стучат и банят, видимо.

Тимон добавил 10.02.2009 в 08:58

О, пока набирал ответ, Сергей меня опередил ;)

Не только Константин вылетел-то...

Dryoma:
Да, по логике вещей, если слово "сайт" просто выпадает, то запрос (левкипп демокрит анаксимен сайт)~~сайт должен давать столько же результатов сколько и (левкипп демокрит анаксимен)~~сайт, но этого не происходит.

Не соглашусь с вами.

Например, у нас есть 5000 сайтов, где встречаются три слова "левкипп демокрит анаксимен". Из этих 5 000 сайтов есть 100, где также встречается слово сайт. Плюс к этим 5 000 есть что-то релевантное от быстроробота.

На запрос (левкипп демокрит анаксимен)~~сайт Яндекс отбирает сначала 5000 сайтов, потом исключает из них 100 + остается быстроробот

На запрос (левкипп демокрит анаксимен сайт)~~сайт Яндекс отбирает сначала 100 наших сайтов + быстроробота; затем исключает 100 сайтов, т.к. они содержат слово "сайт"

Тимон добавил 06.02.2009 в 17:47

wolf:
Если эти три слова проходят кворум в четырехсловном запросе, то все эти страницы и должны быть в выдаче, не так ли? ;)

Ну да, так раньше было.

А сейчас мы вот толкуем, что кворума нет для основной выдачи (должны быть все слова запроса на странице), хотя вроде как кворум остался в выдаче быстроробота.

MasterRico:
Но также в эту пачку сайтов в выдачу Яша вкидывает страницы где есть слово site :)

ну, дык, переходы никто не отменял :)

Тимон добавил 06.02.2009 в 15:38

wolf:
Тем более, что запрос

левкипп демокрит анаксимен

дает большее кол-во документов ;)

Ну так конечно он будет давать большее количество документов, ведь страниц, где есть эти три слова достаточно много...

или вы оне об этом?

wolf:
Поразительный вывод. А в tf*idf второй множитель, по-Вашему - это что? :)

Ну он самый. Просто раньше этот IDF не сильно влиял на релевантность. Были контекстные ограничения, релевантные пассажи и прочее...

А, вспомнил - проверял я в свое время влияние IDF

брал два сайта, грубо - в одном 10 слов А и одно Б, во втором - 1 А и 10 Б.

Сравнивал их релевантность, меняя веса первого и второго слова соответственно - и ничего не происходило (хотя если бы вес учитывался, то выше вылезал бы сайт, где 10 раз упортребляется самое весомое слово). Кворум - да, он четко реагировал на изменение веса, а в остальном IDF не проявлял себя.

Видимо, в новой модели IDF сильнее влияет на итоговый показатель.

wolf:
А чё - давно нормировку TF сменили? :)

Сергей, у нас есть более интересный разговор про текстовую релевантность - тут вот он

заходите ;)

Всего: 265