G00DMAN

Рейтинг

122

Регистрация

19.04.2008

7 октября 2009, 00:26

Елистратов:
"Ты последний" накладывался на весь сайт. Сейчас таких фильтров нет. Сейчас фильтр не на сайт целиком, а на документ.

Или на группу документов. Или не один фильтр, а несколько сразу.

Елистратов:
Яндекс уже давно оценивает на уникальность документы отдельно. И фильтры накладываются на них. Либо понижаются в выдаче либо вылетают из индекса. А те страницы, что не попали под данный фильтр прекрасно ранжируются.

Фильтры не обязательно за не уникальность. Могут и за разные внешние факторы, и за игры с текстом. Похоже, что не под всеми этими фильтрами что-то на сайте "прекрасно ранжируется".

Елистратов:
Да и выйти из этого фильтра намного проще.

Из под каких-то - наверное проще, из под других нет. В каких-то тематиках, где более-менее релевантных сайтов немеряно (типа фильмы и тому подобное УГ) из под некоторых фильтров вообще не вытаскивается, как говорят коллеги.

wW wolf!

5 октября 2009, 21:59

Сергей, поздравляю! :)

Как работает поиск Яндекса (ранжирование в топ)

4 октября 2009, 08:50

illah:
Я так понимаю, что оценивают они ТОПы ВЧ...

Не только, на РОМИПе же написали, что оценено не менее 20К запросов.

Как работает поиск Яндекса (ранжирование в топ)

28 сентября 2009, 18:57

AiK:
Ну да, уборщицы (тоже люди) не в курсе. А так и ежику понятно, что например, для новостных запросов ссылки рулят меньше, чем контекст, а для энциклопедрических(ц) запросов больше рулит авторитетность самого ресурса, содержащего статью. Т.е. в общем случае нельзя утверждать, что больше рулит, но для конкретного запроса как минимум один человек в Яндексе всегда определённо может установить параметр, внёсший максимальный вклад в релевантность.

Не факт. Зависит от ранжирующей функции, скорее всего нет такого "минимум одного человека".

Сообщение от Turbo
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.

AiK:
Есть. Более того, есть параметры, монотонное изменение которых ВСЕГДА приводит к скачкообразному изменению релевантности :)

AiK, Вы с Turbo, если я правильно понял, имеете ввиду разные релевантности, сайта и выдачи в целом. Релевантность выдачи в целом не будет увеличиваться при изменении какого-то одного параметра, иначе не было бы проблемы с ранжированием. Кстати, яндексоиды заявили, что релевантность выдачи в реале меряется так же, как и на РОМИПе-2009, каким-то образом усредненным pfound, может быть даже тупо средним по всем запросам из базы асессоров. Только вероятность в реале немного не 40%, хотя для нас это не принципиально.

Как работает поиск Яндекса (ранжирование в топ)

28 сентября 2009, 06:12

Turbo, понятно. Логично конечно, но не верно, ИМХО. Яндексоиды ищут различные пути быстрой оптимизации ранжирующей функции на основе новых данных, при "конкурсном" подходе они видимо уперлись в некий потолок, поэтому и было принято решение пустить оптимизацию в массы. С одной стороны - халява, с другой - а вдруг что-то выгорит? Похоже, что не получилось на этот раз. :)

Частота апдейтов ссылочного ранжирования

27 сентября 2009, 23:59

wolf:
Хм... Реверс-инжиниринг функции минимум о 163 переменных представляется весьма непростой задачей. Хотя, чем черт не шутит, если на самом деле полином, т.е. функция линейная... Значимых факторов ведь все рано не больше десятка наберется...

Да, и эти значимые как-то можно попытаться оценить. Шансы точно есть. :)

Как работает поиск Яндекса (ранжирование в топ)

27 сентября 2009, 23:41

Turbo:
После участия в конкурсе от Яндекса (Интернет математика) мне стал абсолютно ясно понятен алгоритм работы и ответы на всякие мелкие вопросы, вроде, почему апдейты проходили раз в несколько дней. Все очень просто.

Все было бы просто, если бы именно эта модель использовалась в реале. Кстати, почему Вы решили, что конкурс был основан на текущем алгоритме? ИМХО, это не так. ;)

Turbo:
У Яндекса есть группа асессоров – так называемых оценщиков релевантности документов. Они составляют список вида: страница – запрос – релевантность. В этом списке сотни тысяч страниц. Релевантность варьируется от значений совсем не релевантно (0), до полностью релевантно (5).

На конкурс выдали такую градацию, на РОМИП-2009 фактически использовалась бинарная vital=1/все остальное=0, как оно в реале - дело темное.

Turbo:
Всего таких параметров на конкурсе было 245 штук, что, скорее всего, недалеко от реального числа используемого Яндексом.

Не факт.

Turbo:
По списку асессоров и набору параметров для каждой страницы из списка строится модель по «Методу опорных векторов».

Только в рамках конкурса.

Turbo:
1) Если страница вашего сайта попадает в список асессоров с максимальной релевантностью, то первое место вам обеспечено независимо от расколбаса выдачи.

Сомнительное утверждение.

Turbo:
2) Люди в Яндексе сами не в курсе, что именно больше влияет на выдачу (контент, ссылочное).

Наверняка. :)

Turbo:
3) Поиск Яндекса приспосабливается к любым внешним условиям за счет постоянного обновления модели.

Ага.

Turbo:
4) Я пытался найти зависимость, монотонное изменение одного параметра НИКОГДА не приводит к монотонному изменению релевантности. Из этого следует, что нет параметра, однозначно ведущего к увеличению релевантности.

Так это в общем-то достаточно очевидно для такого вида функций.

Turbo:
Человек 10 ИМХО хватит, что бы поддерживать список актуальным.

Думаю, что больше.

Turbo:
Что бы осознанно влиять на выдачу нужно:
1) Достать описание и метод расчета всех 245 (?) параметров
2) Достать хотя бы устаревшую базу асессоров

:) Ну в целом можно пойти и другими путями, да.

Turbo:
Ну 3 параметра они явно озвучили: tf*idf, PageRank, длина запроса в словах. Но от этого не легче, например посчитать PR так же как Яндекс невозможно, не имея полной БД Яндекса.

В конкурсе использовался tf*idf, в реале - уже нет, и якобы давно. ;)

Tarry:
Кстати интересный момент, не смотря на обилие факторов, значимых то все равно должно быть мало.

Верно, их-то и нужно пытаться реинжинирить.

wladvlad:
я вообще не знаю что такое "машинное обучение", к сожалению.
не затруднит вас объяснить?

Если взять за подобие "истины" доклад Яндекса на РОМИП-2009, то "машинное обучение" в понимании яндексоидов - нахождение хороших экстремумов некоей целевой функции от ранжирующей. :)

Ceres:
Можно дать объявление здесь на серче - ищу связь с ассессором - глядишь подфартит он стукнется в личку и предложит свои услуги :)

Не даст такая связь ничего абсолютно, ИМХО. :)

_S_:
А почему такой ажиотаж?
Давно известно, что параметров в формуле ранжирования более 245.

Откуда известно?

wolf:
Неплохой аргумент

Если догадка верна, то халявные оптимизаторы на конкурсе не справились и на такой подход могли вообще забить.

З.Ы. Прошу сильно не пинать за сумбурность, т.к. немного на южных морях и башка явно перегрета на солнце. :)

Частота апдейтов ссылочного ранжирования

21 сентября 2009, 22:07

богоносец:
Какова реальная применимость этих данных? Что там с «шумом»?
...
Реальная задача асессоров не в этом...

Все не совсем так, как Вы думаете с этими асессорами. Я, к сожалению, не читал инструкцию для асессора Яндекса, она теоретически может быть отличной от мировой практики, т.к. разработчики в Яндексе иногда очень креативно отжигают. :)

Мировая практика с асессорами такова - асессоры, как правило, не оценивают ранжирование документов, не сравнивают документы по релевантности. Хотя бы потому, что и запрос может трактоваться многими способами, и асессор может быть не спецом в теме. Асессоры оценивают пары <запрос-документ>, обычно по критерию "документ релевантен(еще говорят витальный, но это не та витальность, которая пришпиливает топ-1/частично релевантен/не релевантен". И как бы все. :)

Оценки ранжирования могут быть только на узкотематичных коллекциях документов с привлечением асессоров-профи в данной теме.

Инструкция для асессоров обычно как раз и содержит правила, по которым нужно относить пары в ту или иную категорию.

И задача обучения - сделать например в топ-100 выдачи как можно больше "документ релевантен", если такие документы присутствуют где-то в индексе ПС.

Задача ранжирования по "истинной" релевантности для конкретного пользователя при этом никогда не рассматривается, т.к. ее формализовать в настоящее время не реально.

Для того, чтобы формализовать такую задачу, можно поступить следующим образом. Задавая запрос, пользователь может хотеть получить десятки, а то и сотни разных ответов, но скорее всего есть наиболее распространенные два-три ответа. Если оценить все документы в выдаче по критерию "на какой именно вариант запроса отвечает документ", а потом посчитать доли кликов реальных пользователей на документы каждой группы, то наверное можно сформировать некую пропорцию в выдаче на первых страницах. Но это задача будущего, ИМХО. :)

З.Ы. Выложили труды РОМИП-2009.

Частота апдейтов ссылочного ранжирования

21 сентября 2009, 09:49

kbv79:
В последние 3 апа, Яндекс явно что-то подкрутил: если раньше на сайте был текст "мойка слонов" и где-то отдельно, например, "Балашиха", на запрос "мойка слонов балашиха" Яндекс показывал снипет, сейчас же найден по ссылке.
Причем выводятся как новые, недавно купленные ссылки, так и ссылки которых уже нет пару месяцев.

Сниппеты не связаны с апдейтами выдачи, а алгоритм выдачи сниппетов не стабилен минимум с декабря, раньше я не пытался его реинженирить. Яндексоиды пока не смогли получить хорошего алгоритма аннотирования, так что сниппеты и дальше будут меняться.

Страницы с давно снятыми ссылками могли еще не переиндексироваться.

Частота апдейтов ссылочного ранжирования

21 сентября 2009, 05:53

Miha Kuzmin (KMY):
В смысле, были на ромипе? Там вообще кто отсюда был?

В том смысле, что будут выложены в архиве на их сайте.

На РОМИПе я был в качестве докладчика, знакомых морд не видел, может кто и был по-тихому. :)

1 ... 143 144 145 146 147 148 149 150 151 ...196

Всего: 1960

Google: E-E-A-T не является фактором ранжирования

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

G00DMAN