G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
burunduk:
возможно в данном случае это старая проблема, сложно сформировать корректную выдачу по несерьезным запросам из-за отсутствия достаточной выборки релевантных запросу ресурсов и приходиться использовать не просчитанное ссылочное :)

Не, не катит гипотеза. Истинную релевантность документа запросу пока не возможно просчитать алгоритмически, ее оценивают живые асессоры. А они оценивают только мизерный набор из общего списка запросов. По запросу, который приводили выше, документов на сотню должно хватать.

Кстати, сео-запросы, столь любимые Женей Трофименко, асессоры не рассматривают. Оно и правильно, зачем смотреть намеренно искривленную выдачу? :D

wolf:
Дима Dexter, по поводу "слабеньких запросов". Можно в рамках гипотезы допустить, что пока необсчитанным мадридским счетом анкорам дают не ноль, а некий базовый мизер. Сумма N мизеров может повлиять по слабенькому запросу, но останется незаметной по более-менее серьезному

Очень даже логично, в целом получается более-менее стройная система.

1. С "мадридскими" свойствами вышел затык при реализации, поэтому новые анкоры обсчитываются не сразу.

2. Не обсчитанные анкоры получают минимальный вес.

3. Обучение алгоритма идет методом генетической оптимизации полинома, в котором может быть около 163-х параметров. Это звучит диковато, такой алгоритм может сходиться годами... :D

3. Несмотря на большое количество известных и не плохих целевых функций для обучения алгоритма, Яндекс разработал свою - pfound, реально креативную, формулы будут на РОМИПе, если кому-то интересно.

4. Обучение проходит на данных от асессоров, данных уже много.

5. Если ГА сходится очень долго, то обучающая выборка наверняка не пополняется новыми запросами, она только дополняется парами <запрос-документ> для свежепопавших в топ-100 и быстренько обработанных асессорами.

6. В виду того, что (по словам яндексоидов) pfound используется уже давно, видимо уже сложилось мнение, что при значениях целевой функции больше некоего числа выдача по-любому будет не плохой. Поэтому при нахождении нового локального максимума (с помощью перманентно запущенного ГА), который выше предыдущего, можно запускать апдейт, он должен улучшить выдачу. Локальные максимумы могут находиться до некоторых пор регулярно, так что апдейты можно выдавать часто. И позиции при этих апах будут скакать слегка, чем дальше новый локальный максимум от прошлого в 163-мерном пространстве параметров, тем выше будет "шторм".

Примерно как-то так. И это не радует ни разу. :)

wolf:
Ну, как бы текстовое и возможные пертурбации в настройках машинного обучения на основе новых рипортов асессоров.

Ну допустим они так поставили поток, что могут выдавать переобученные алгоритмы дважды в неделю, а иногда и чаще. Только это сомнительно слегка, жаль мы не знаем, в какое время выливается у них одно вычисление целевой функции, но, учитывая объемы обучающей выборки - не верится ни разу. Разве что допустить, что ГА работает всегда, а из него периодически выдергивают текущие локальные максимумы. Так наверное можно сделать, только данные асессоров часто не получится добавлять.

wolf:
Изменения ведь некритичны?

В целом - да, для отдельных пациентов - нет. :)

Если действительно каждый ап будут менять коэффициенты полинома, то все кисло, никакой реинжиниринг не успеет угнаться... :)

wolf:
Вы полагаете, "топ" и "вся выдача" ранжируются по разным алгоритмам? :)

Это не на столько забавное утверждение, как может показаться, если смотреть на другие поисковики. Скажем в гугле похоже есть такая фича для ограниченного пула запросов (запросы не пропалю, чужое исследование). В Яндексе точно не так. :)

Если новое ссылочное добавляется достаточно редко, то что влияет на изменение выдачи каждый ап? Судя по ашмановскому анализатору выдачу все же колбасит слегка. Перекручивают коэффициенты? Каждый ап не могут. Тексты в коммерческих топах тоже не меняются с такой частотой.

rexona:
с биржами, при таком раскладе, какой сущуствует почти нереально обойти фильтрационный этап)

Да ладно, вот подождите, скоро вылезет Zonk с новой пришпиленой темой "Алгоритм Арзамаса раскрыт!" :D

У него-то, если не считать average по домену-донору (что и не считается в докладе), величину NTh устанавливает оптимизатор, так что типа "все в лиех", ага.

wolf:
Ну, допустим, это даст снизить показатель SEOout. И то, думаю, ненадолго при ваших (да и при наших) масштабах. Но остаются еще SEOtext, SEOin и ... :)

SEOout как бы зависит от SEOtext и SEOin, отдельно снизить не получится. В целом хреновая ситуация для фриланса, у больших контор есть возможности для снижения SEOout, хотя все так геморно... Ну и что совсем пока не известно - как анкор-лист, оптимизированный по SEOout будет влиять на продвижение, как бы не случилось "или то/или это". :)

Slavomir, да я немного не о том писал. IndexSa утверждал, что документы, написанные в одном стиле на разных сайтах, поднимаются в выдаче оптом при проставлении анкоров на один из них. :D

Определение первоисточника - совсем другая задача, а от красивой классификации документов по стилю написания ни один поисковик бы не отказался, это же суперская фича - найти все тексты, написанные в том же стиле. :)

Фома:
Полез пробивать лидера топа по одному конкурентному запросу из серии бытовых услуг. Почти все анкоры "покраска толстых слоников, jf2". Вот эти jf2(условно, там на самом деле ротация) встречались у него и год назад, но думал отголоски прошлых продвижений. Полез сейчас проверять озабоченный этой темой, там почти все анкоры такого вида.

Причем если считать бюджет по seopult'у, у него 2400, второе место 18000, и далее по нисходящей.

Учитывая испанский доклад, ссылки типа "покраска толстых слоников, jf2" могут пока считаться некоммерческими и даже давать больше веса, но это временно. Т.к. разбавочная абракадабра вставлена исключительно для обмана поисковика. Отчекать такие анкоры понятно как и теперь просто дело времени. Если верить в гипотезу о силе старых ссылок, то зачем выращивать старые, которые со временем станут давать ноль или даже минус? Лучше сразу нормальные разбавки делать, типа "покраска толстых слоников, оптом и в розницу" или "покраска толстых слоников гуталином в 4 слоя". :)

IndexSa:
У меня есть аналогичный случай, только у меня покупка ссылок на сайт 3 приводила к росту по этим запросам сайта 1 и 2 😮 из чего я сделал вывод о некоем улавливании аффилированности на уровне контента (я не курю). По сему вопрос, контент писал для сайтов один и тот же человек? И схожести верстки есть?

Круто. В петрозаводском университете разработали прикольный алгоритм для определения авторства, после многолетнего бодалова даже доказали литераторам, что некий бесхозный текст принадлежит Достоевскому. Но поисковики технологию не спешат покупать, так что не парьтесь, аффилиаты по стилю написания никто пока не находит, слишком затратно это. Схожесть верстки может быть на тысячах сайтов, их всех тоже нужно в выдаче поднять? Вы просто одновременно происходящие события принимаете за связанные, а это не всегда так. Курю парламент-1, но много. :D

wolf:
Однозначно! А мы бы запись потом расшифровали бы. Сегалович - он ведь никогда не соврет. А вот завуалировать - запросто. Вся фишка - как резавуалировать ответ :)

Нееее, сео-засланцем меня нанять - в СЕО пока таких денег нет. :D

Что касается доклада на конфе WWW, то Илья сам сказал о внедрении его в алгоритм ранжирования, у меня не было цели что-то вытягивать.

wolf:
Это надо слово в слово вопрос и ответ проанализировать :)

Может мне нужно было диктофон для такого случая прикупить? :)

Не было вопрос-ответов, просто прикалывались на тему тяжелой судьбы оптимизаторов в Арзамасе. :D

Всего: 1960