Не, не катит гипотеза. Истинную релевантность документа запросу пока не возможно просчитать алгоритмически, ее оценивают живые асессоры. А они оценивают только мизерный набор из общего списка запросов. По запросу, который приводили выше, документов на сотню должно хватать.
Кстати, сео-запросы, столь любимые Женей Трофименко, асессоры не рассматривают. Оно и правильно, зачем смотреть намеренно искривленную выдачу? :D
Очень даже логично, в целом получается более-менее стройная система.
1. С "мадридскими" свойствами вышел затык при реализации, поэтому новые анкоры обсчитываются не сразу.
2. Не обсчитанные анкоры получают минимальный вес.
3. Обучение алгоритма идет методом генетической оптимизации полинома, в котором может быть около 163-х параметров. Это звучит диковато, такой алгоритм может сходиться годами... :D
3. Несмотря на большое количество известных и не плохих целевых функций для обучения алгоритма, Яндекс разработал свою - pfound, реально креативную, формулы будут на РОМИПе, если кому-то интересно.
4. Обучение проходит на данных от асессоров, данных уже много.
5. Если ГА сходится очень долго, то обучающая выборка наверняка не пополняется новыми запросами, она только дополняется парами <запрос-документ> для свежепопавших в топ-100 и быстренько обработанных асессорами.
6. В виду того, что (по словам яндексоидов) pfound используется уже давно, видимо уже сложилось мнение, что при значениях целевой функции больше некоего числа выдача по-любому будет не плохой. Поэтому при нахождении нового локального максимума (с помощью перманентно запущенного ГА), который выше предыдущего, можно запускать апдейт, он должен улучшить выдачу. Локальные максимумы могут находиться до некоторых пор регулярно, так что апдейты можно выдавать часто. И позиции при этих апах будут скакать слегка, чем дальше новый локальный максимум от прошлого в 163-мерном пространстве параметров, тем выше будет "шторм".
Примерно как-то так. И это не радует ни разу. :)
Ну допустим они так поставили поток, что могут выдавать переобученные алгоритмы дважды в неделю, а иногда и чаще. Только это сомнительно слегка, жаль мы не знаем, в какое время выливается у них одно вычисление целевой функции, но, учитывая объемы обучающей выборки - не верится ни разу. Разве что допустить, что ГА работает всегда, а из него периодически выдергивают текущие локальные максимумы. Так наверное можно сделать, только данные асессоров часто не получится добавлять.
В целом - да, для отдельных пациентов - нет. :)
Если действительно каждый ап будут менять коэффициенты полинома, то все кисло, никакой реинжиниринг не успеет угнаться... :)
Это не на столько забавное утверждение, как может показаться, если смотреть на другие поисковики. Скажем в гугле похоже есть такая фича для ограниченного пула запросов (запросы не пропалю, чужое исследование). В Яндексе точно не так. :)
Если новое ссылочное добавляется достаточно редко, то что влияет на изменение выдачи каждый ап? Судя по ашмановскому анализатору выдачу все же колбасит слегка. Перекручивают коэффициенты? Каждый ап не могут. Тексты в коммерческих топах тоже не меняются с такой частотой.
Да ладно, вот подождите, скоро вылезет Zonk с новой пришпиленой темой "Алгоритм Арзамаса раскрыт!" :D
У него-то, если не считать average по домену-донору (что и не считается в докладе), величину NTh устанавливает оптимизатор, так что типа "все в лиех", ага.
SEOout как бы зависит от SEOtext и SEOin, отдельно снизить не получится. В целом хреновая ситуация для фриланса, у больших контор есть возможности для снижения SEOout, хотя все так геморно... Ну и что совсем пока не известно - как анкор-лист, оптимизированный по SEOout будет влиять на продвижение, как бы не случилось "или то/или это". :)
Slavomir, да я немного не о том писал. IndexSa утверждал, что документы, написанные в одном стиле на разных сайтах, поднимаются в выдаче оптом при проставлении анкоров на один из них. :D
Определение первоисточника - совсем другая задача, а от красивой классификации документов по стилю написания ни один поисковик бы не отказался, это же суперская фича - найти все тексты, написанные в том же стиле. :)
Учитывая испанский доклад, ссылки типа "покраска толстых слоников, jf2" могут пока считаться некоммерческими и даже давать больше веса, но это временно. Т.к. разбавочная абракадабра вставлена исключительно для обмана поисковика. Отчекать такие анкоры понятно как и теперь просто дело времени. Если верить в гипотезу о силе старых ссылок, то зачем выращивать старые, которые со временем станут давать ноль или даже минус? Лучше сразу нормальные разбавки делать, типа "покраска толстых слоников, оптом и в розницу" или "покраска толстых слоников гуталином в 4 слоя". :)
Круто. В петрозаводском университете разработали прикольный алгоритм для определения авторства, после многолетнего бодалова даже доказали литераторам, что некий бесхозный текст принадлежит Достоевскому. Но поисковики технологию не спешат покупать, так что не парьтесь, аффилиаты по стилю написания никто пока не находит, слишком затратно это. Схожесть верстки может быть на тысячах сайтов, их всех тоже нужно в выдаче поднять? Вы просто одновременно происходящие события принимаете за связанные, а это не всегда так. Курю парламент-1, но много. :D
Нееее, сео-засланцем меня нанять - в СЕО пока таких денег нет. :D
Что касается доклада на конфе WWW, то Илья сам сказал о внедрении его в алгоритм ранжирования, у меня не было цели что-то вытягивать.
Может мне нужно было диктофон для такого случая прикупить? :)
Не было вопрос-ответов, просто прикалывались на тему тяжелой судьбы оптимизаторов в Арзамасе. :D