Яндекс на RCDL 2010. Поведенческие факторы и разнообразие выдачи.

john2007
На сайте с 26.03.2007
Offline
173
#41
wolf:
Подозреваю, это улучшение произошло на запросах, скажем так, не находящихся по SEO-прессингом :) То есть там, где нет прямых вхождений.

Ну, естественно! :)

Вопрос в том, что чего же они раньше так плохо фактор расстояния между словами учитывали!

И я думаю, что дело, наверное не в том, что фактор расстояний плохо расчитывается, он именно плохо учитывается!

Т.е. текущий фактор расстояний учитывается с недостаточным весом и/или не в том месте/связке в деревьях.

А добавление еще одного фактора расстояний, видимо, улучшило вес в 2 раза, от сюда и улучшение качества поиска :)

Думаю, если добавить еще с десяток модифицированных факторов, учитывающих расстояния, то качество информационного поиска еще возрастет :)

mhz:

Плюс, это лично вы, возможно, не найдя ответа в топ10-20 сразу же уходите в Гугл, а ведь у многих другой рефлекс — переформулировка запроса.

Ну, если позаниматься этим вопросом, создать новый matrix net по оценке качества поиска, который учтет сотни факторов поведения юзера в серпе, то может и можно к чему-то хорошему прийти в оценке качества поиска.

"Зло пожирает само себя" :)

john2007 добавил 27.10.2010 в 14:08

G00DMAN:
Эти параметры можно использовать в факторах для конкретного документа. А можно и не использовать.

ИМХО, единственный поведенческий, который можно учитывать -

Висит сайт в выдаче, на все сайты там юзеры кликают, а на этот не кликают (по какой-то оценке).

Ну и нафиг там сайту по этому запросу висеть?

А уж какая причина, то ли сниппет с тайтлом плохой, то ли тематика (под тематика) не та, или какая другая причина.

А количество таких сайтов в выдаче ПС - вот и одна из метрик качесва поиска :)

Точнее количество выдач с такими сайтами.

G00DMAN:

То, что опубликованы честные цифры в пользу гугла - красиво. Гугл такого наверняка не стал бы публиковать. :)

Ну, понятно, это же в лабораторных условиях было, была поставлена цель - найти ответы!

Вот у Гугла лучше и получилось по этой методе с временем.

Я удивлен, как это у них с Яндексом деление на бесконечность не получилось :)

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
юни
На сайте с 01.11.2005
Offline
902
#42
john2007:
добавление еще одного фактора расстояний

Кстати, а на основе чего было принято, что одно расстояние между словами должно учитываться хорошо, а несколько большее - хуже? Какие расстояния были взяты за основу, и по какому принципу?

Ну, не по конкретным формулам, а вообще, в самом начале.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
john2007
На сайте с 26.03.2007
Offline
173
#43
юни:
Кстати, а на основе чего было принято, что одно расстояние между словами должно учитываться хорошо, а несколько большее - хуже? Какие расстояния были взяты за основу, и по какому принципу?

Ну, не по конкретным формулам, а вообще, в самом начале.

Имперически :)

И там не оптимальное расстояние, а чем меньше, тем лучше.

юни
На сайте с 01.11.2005
Offline
902
#44
john2007:
И там не оптимальное расстояние, а чем меньше, тем лучше.

Во-во. Это тоже к вопросу о неверных предпосылках - кто вообще выдумал, что "чем меньше, тем лучше"? На основе какой, объёма и качества, эмпирики?

mhz
На сайте с 16.05.2007
Offline
190
mhz
#45
юни:
Во-во. Это тоже к вопросу о неверных предпосылках - кто вообще выдумал, что "чем меньше, тем лучше"? На основе какой, объёма и качества, эмпирики?

Эмм... Логически? :)

Чем ближе в документе все слова из запроса, тем вероятнее, что в документе речь идёт именно о предмете запроса, а не о схожих по смыслу или лексически. Ну это как с прямым вхождением.

Миниатюрный бультерьер Сахарок (http://www.bule4ka.ru/) — СДЛ о собачках. Вечные ссылки — безопасный способ продвижения и заработка. (http://miralinks.ru/users/registration/from:163)
FlyAway
На сайте с 01.06.2005
Offline
439
#46
wolf:
Лучше изначально морду двигать по одному-двум-трех суровым ВЧ, а длинный хвост НЧ размазывать по внутряку.

Капитан очевидность. 😂

FlyAway добавил 27.10.2010 в 14:43

john2007:
ИМХО, единственный поведенческий, который можно учитывать -
Висит сайт в выдаче, на все сайты там юзеры кликают, а на этот не кликают (по какой-то оценке).

Согласен. Кликабельность имхо очень сильную роль играет.

Сердюченко Андрей (http://www.serdyuchenko.ru/) Масонская ложа — SЕ-Team.ru (http://goo.gl/YIjV6h) :)
юни
На сайте с 01.11.2005
Offline
902
#47
mhz:
Чем ближе в документе все слова из запроса, тем вероятнее, что в документе речь идёт именно о предмете запроса, а не о схожих по смыслу или лексически.

Разве? Предположу, что даже не в большинстве случаев.

Можно не брать специфические варианты, типа этого форума (каково оптимальное расстояние между ключевиками в этой теме, например?) - достаточно принять, именно логически, что люди пишут тексты по-разному и, соответственно, "предмет запроса" определяется в первую очередь именно "по смыслу и лексически", а не по среднетемпературным расстояниям между словами.

Я к тому веду, что при расчёте пузомерок (как вероятности перехода по ссылке) и прочих трастовых окон такие значения ещё можно приводить к каким-то общим и "обезличенным" результатам, но вот при учёте поведенческого - проблема станет в полный рост.

Допустим, что рассчитывать веса ссылок, исходя из вероятности перехода по ним - подход правильный. Но что делать, если ссылка тем или иным способом становится невидимой? Учитывать её при ссылочном/анкорном и всяком прочем ранжировании ещё как-то можно, но для поведенческого её вес прямо и стопроцентно равен нулю, без каких-либо предварительных и последующих вычислений.

Другой пример - кликабельность сниппета. Как её алгоритмизировать для поведенческого, кроме очередных "средних по больнице" статистик кликабельности? К примеру, сниппет, кликабельный для простых пользователей, будет совершенно незаметен для слабовидящих и/или дальтоников - а это уже двузначный процент. Отнесём в погрешность? Так это лишь яркий пример, без тонкостей и нюансов. Придумаем методику?

Но где взять методику для измерения офлайновых действий через онлайн-инструменты? Они попросту не пересекаются. Метрику в мозг не имплантируешь и бары на очки не навесишь.

Так что все рассуждения на тему учёта есть не более, чем игрушки, а-ля статистика по возрасту и, о чудо, полу - вторичные и далее выводы, полученные через наблюдения за сайтами анекдотов и женских форумов.

di_max
На сайте с 27.12.2006
Offline
262
#48
john2007:
ИМХО, единственный поведенческий, который можно учитывать -
Висит сайт в выдаче, на все сайты там юзеры кликают, а на этот не кликают (по какой-то оценке).

Угу. А если еще равномерно растянуть ТОП10 до ТОП1000, что бы скоррелировать результаты, то... может что и получится.:)

Бо за ТОП30 - жизнь... только на Марсе.😂

Кста!

- А куда и как в нее, методику, всовывать новые сайты?

Речь о тех 5%, которые все же просто сайты, а не СЕО-"творения"

// Все наши проблемы от нашего не знания...
G00DMAN
На сайте с 19.04.2008
Offline
122
#49
юни:
Предположу, что даже не в большинстве случаев.

Не нужно предполагать, исходя из житейских логик. Бесполезная трата времени. :)

Как добавляется новый фактор в матрикснет? Рассмотрим на примере того же YMW.

Для начала фактор YMW рассчитывается для всех документов обучающей выборки и проверяется (мат. методами) его независимость от уже имеющихся факторов. Но в случае данного фактора и так понятно, что независимость есть на длинных запросах, а значит и в целом она есть.

Затем матрикснет обучается с этим фактором и считается метрика качества обучения. Если с добавлением фактора качество не ухудшилось - фактор принимается в набор.

Логика фактора при этом не важна, главное, чтобы выполнялись указанные выше условия. Т.е. если например они бы выполнялись для фактора "количество точек в документе", или "количество тегов <td>", то такие факторы вошли бы в набор. Легко. :)

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
john2007
На сайте с 26.03.2007
Offline
173
#50
di_max:
Угу. А если еще равномерно растянуть ТОП10 до ТОП1000, что бы скоррелировать результаты, то... может что и получится.:)
Бо за ТОП30 - жизнь... только на Марсе.😂

Кста!
- А куда и как в нее, методику, всовывать новые сайты?
Речь о тех 5%, которые все же просто сайты, а не СЕО-"творения"

Я ничего из этого не понял, кроме того, что понял, что Вы меня не поняли :)

Поэтому объясню еще раз на примере.

Висит сайт X на 5-ом месте по запросу "розовые слоны", на него кликнули 1 раз за 3 дня . А на все остальные сайты из топ10 минимум 10 раз на каждый сайт за это же время кликнули.

Вопрос, зачем в выдаче сайт X на 5-ом месте, да и вообще в топе по запросу "розовые слоны" ?

Поэтому причем тут новые сайты к этой методике я не понял :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий