G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
Елистратов:
"Ты последний" накладывался на весь сайт. Сейчас таких фильтров нет. Сейчас фильтр не на сайт целиком, а на документ.

Или на группу документов. Или не один фильтр, а несколько сразу.

Елистратов:
Яндекс уже давно оценивает на уникальность документы отдельно. И фильтры накладываются на них. Либо понижаются в выдаче либо вылетают из индекса. А те страницы, что не попали под данный фильтр прекрасно ранжируются.

Фильтры не обязательно за не уникальность. Могут и за разные внешние факторы, и за игры с текстом. Похоже, что не под всеми этими фильтрами что-то на сайте "прекрасно ранжируется".

Елистратов:
Да и выйти из этого фильтра намного проще.

Из под каких-то - наверное проще, из под других нет. В каких-то тематиках, где более-менее релевантных сайтов немеряно (типа фильмы и тому подобное УГ) из под некоторых фильтров вообще не вытаскивается, как говорят коллеги.

Сергей, поздравляю! :)

illah:
Я так понимаю, что оценивают они ТОПы ВЧ...

Не только, на РОМИПе же написали, что оценено не менее 20К запросов.

AiK:
Ну да, уборщицы (тоже люди) не в курсе. А так и ежику понятно, что например, для новостных запросов ссылки рулят меньше, чем контекст, а для энциклопедрических(ц) запросов больше рулит авторитетность самого ресурса, содержащего статью. Т.е. в общем случае нельзя утверждать, что больше рулит, но для конкретного запроса как минимум один человек в Яндексе всегда определённо может установить параметр, внёсший максимальный вклад в релевантность.

Не факт. Зависит от ранжирующей функции, скорее всего нет такого "минимум одного человека".

Сообщение от Turbo
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.
AiK:
Есть. Более того, есть параметры, монотонное изменение которых ВСЕГДА приводит к скачкообразному изменению релевантности :)

AiK, Вы с Turbo, если я правильно понял, имеете ввиду разные релевантности, сайта и выдачи в целом. Релевантность выдачи в целом не будет увеличиваться при изменении какого-то одного параметра, иначе не было бы проблемы с ранжированием. Кстати, яндексоиды заявили, что релевантность выдачи в реале меряется так же, как и на РОМИПе-2009, каким-то образом усредненным pfound, может быть даже тупо средним по всем запросам из базы асессоров. Только вероятность в реале немного не 40%, хотя для нас это не принципиально.

Turbo, понятно. Логично конечно, но не верно, ИМХО. Яндексоиды ищут различные пути быстрой оптимизации ранжирующей функции на основе новых данных, при "конкурсном" подходе они видимо уперлись в некий потолок, поэтому и было принято решение пустить оптимизацию в массы. С одной стороны - халява, с другой - а вдруг что-то выгорит? Похоже, что не получилось на этот раз. :)

wolf:
Хм... Реверс-инжиниринг функции минимум о 163 переменных представляется весьма непростой задачей. Хотя, чем черт не шутит, если на самом деле полином, т.е. функция линейная... Значимых факторов ведь все рано не больше десятка наберется...

Да, и эти значимые как-то можно попытаться оценить. Шансы точно есть. :)

Turbo:
После участия в конкурсе от Яндекса (Интернет математика) мне стал абсолютно ясно понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто.

Все было бы просто, если бы именно эта модель использовалась в реале. Кстати, почему Вы решили, что конкурс был основан на текущем алгоритме? ИМХО, это не так. ;)

Turbo:
У Яндекса есть группа асессоров – так называемых оценщиков релевантности документов. Они составляют список вида: страница – запрос – релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5).

На конкурс выдали такую градацию, на РОМИП-2009 фактически использовалась бинарная vital=1/все остальное=0, как оно в реале - дело темное.

Turbo:
Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом.

Не факт.

Turbo:
По списку асессоров и набору параметров для каждой страницы из списка строится модель по «Методу опорных векторов».

Только в рамках конкурса.

Turbo:
1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи.

Сомнительное утверждение.

Turbo:
2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное).

Наверняка. :)

Turbo:
3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели.

Ага.

Turbo:
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.

Так это в общем-то достаточно очевидно для такого вида функций.

Turbo:
Человек 10 ИМХО хватит, что бы поддерживать список актуальным.

Думаю, что больше.

Turbo:
Что бы осознанно влиять на выдачу нужно:
1) Достать описание и метод расчета всех 245 (?) параметров
2) Достать хотя бы устаревшую базу асессоров

:) Ну в целом можно пойти и другими путями, да.

Turbo:
Ну 3 параметра они явно озвучили: tf*idf, PageRank, длина запроса в словах. Но от этого не легче, например посчитать PR так же как Яндекс невозможно, не имея полной БД Яндекса.

В конкурсе использовался tf*idf, в реале - уже нет, и якобы давно. ;)

Tarry:
Кстати интересный момент, не смотря на обилие факторов, значимых то все равно должно быть мало.

Верно, их-то и нужно пытаться реинжинирить.

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Если взять за подобие "истины" доклад Яндекса на РОМИП-2009, то "машинное обучение" в понимании яндексоидов - нахождение хороших экстремумов некоей целевой функции от ранжирующей. :)

Ceres:
Можно дать объявление здесь на серче - ищу связь с ассессором - глядишь подфартит он стукнется в личку и предложит свои услуги :)

Не даст такая связь ничего абсолютно, ИМХО. :)

_S_:
А почему такой ажиотаж?
Давно известно, что параметров в формуле ранжирования более 245.

Откуда известно?

wolf:
Неплохой аргумент

Если догадка верна, то халявные оптимизаторы на конкурсе не справились и на такой подход могли вообще забить.

З.Ы. Прошу сильно не пинать за сумбурность, т.к. немного на южных морях и башка явно перегрета на солнце. :)

богоносец:
Какова реальная применимость этих данных? Что там с «шумом»?
...
Реальная задача асессоров не в этом...

Все не совсем так, как Вы думаете с этими асессорами. Я, к сожалению, не читал инструкцию для асессора Яндекса, она теоретически может быть отличной от мировой практики, т.к. разработчики в Яндексе иногда очень креативно отжигают. :)

Мировая практика с асессорами такова - асессоры, как правило, не оценивают ранжирование документов, не сравнивают документы по релевантности. Хотя бы потому, что и запрос может трактоваться многими способами, и асессор может быть не спецом в теме. Асессоры оценивают пары <запрос-документ>, обычно по критерию "документ релевантен(еще говорят витальный, но это не та витальность, которая пришпиливает топ-1/частично релевантен/не релевантен". И как бы все. :)

Оценки ранжирования могут быть только на узкотематичных коллекциях документов с привлечением асессоров-профи в данной теме.

Инструкция для асессоров обычно как раз и содержит правила, по которым нужно относить пары в ту или иную категорию.

И задача обучения - сделать например в топ-100 выдачи как можно больше "документ релевантен", если такие документы присутствуют где-то в индексе ПС.

Задача ранжирования по "истинной" релевантности для конкретного пользователя при этом никогда не рассматривается, т.к. ее формализовать в настоящее время не реально.

Для того, чтобы формализовать такую задачу, можно поступить следующим образом. Задавая запрос, пользователь может хотеть получить десятки, а то и сотни разных ответов, но скорее всего есть наиболее распространенные два-три ответа. Если оценить все документы в выдаче по критерию "на какой именно вариант запроса отвечает документ", а потом посчитать доли кликов реальных пользователей на документы каждой группы, то наверное можно сформировать некую пропорцию в выдаче на первых страницах. Но это задача будущего, ИМХО. :)

З.Ы. Выложили труды РОМИП-2009.

kbv79:
В последние 3 апа, Яндекс явно что-то подкрутил: если раньше на сайте был текст "мойка слонов" и где-то отдельно, например, "Балашиха", на запрос "мойка слонов балашиха" Яндекс показывал снипет, сейчас же найден по ссылке.
Причем выводятся как новые, недавно купленные ссылки, так и ссылки которых уже нет пару месяцев.

Сниппеты не связаны с апдейтами выдачи, а алгоритм выдачи сниппетов не стабилен минимум с декабря, раньше я не пытался его реинженирить. Яндексоиды пока не смогли получить хорошего алгоритма аннотирования, так что сниппеты и дальше будут меняться.

Страницы с давно снятыми ссылками могли еще не переиндексироваться.

Miha Kuzmin (KMY):
В смысле, были на ромипе? Там вообще кто отсюда был?

В том смысле, что будут выложены в архиве на их сайте.

На РОМИПе я был в качестве докладчика, знакомых морд не видел, может кто и был по-тихому. :)

Всего: 1960