Апдейт поисковой базы 20.01.10

G00DMAN
На сайте с 19.04.2008
Offline
122
#1291

Примерно такое же везде по двухсловным ВК-запросам. Прикол в том, что вылетевшие не особо отличаются от средних по топу. И по простым метрикам явно не самые спамные.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
gidronic
На сайте с 14.10.2004
Offline
146
#1292
G00DMAN:
Прикол в том, что вылетевшие не особо отличаются от средних по топу. И по простым метрикам явно не самые спамные.

Илья, ну Вы, как математик математикам, скажите страждущим, - что это может быть в принципе? :-)))) Неужели Русская рулетка? :-))))

тела давно минувших дней (http://www.eduard.ru) тем и живу (http://besto.ru)
G00DMAN
На сайте с 19.04.2008
Offline
122
#1293
gidronic:
Илья, ну Вы, как математик математикам, скажите страждущим, - что это может быть в принципе? :-)))) Неужели Русская рулетка? :-))))

Может метод фильтрации и простой, только нужно догадаться. Мне пока не поперло с этим. :)

Есть еще пессимистическая гипотеза, в которую я верить не хочу, потому что тогда кранты.

Гипотеза такая - фильтр на спам-текст воткнули в MatrixNet (об этом я уже писал, что такого не может быть). Ну так вот, если все же оно есть, то что могло произойти. В основе лежала совершенно банальная идея - если налить в обучающую выборку много пар (запрос, документ), размеченных как спамные, то алгоритм сам обучится и будет щелкать спам-тексты как орехи. Т.к. возможности асессоров не резиновые, а время всегда критично, то им наковыряли большую рандомную выборку документов из коммерческих топ-30, по немного из многих топов. Эти документы были жестоко размечены, понятно, что большинство как спамные, но выбраны они были случайно и идея с супер-самообучением не сработала. Т.е. размеченые-то вылетели, а остальные - скорее нет, чем да. И закономерностей не будет в таком случае.

lcatlas
На сайте с 29.11.2008
Offline
151
#1294

G00DMAN, есть несколько портальчиков, с простынями текста, портальчики некоммерческие - их ни в коем роде не коснулось. В коммерции такие простыни не использую и у меня ничего не вылетело, но вот из того, что мне показывали/видел - 3-5к текста (даже), из коммерции - повылетали.

Так что ваша теория имеет место быть. Хотя мне больше напоминает какой-то рандом. Потому что некоторые запросы он просто снял с морды и попытался раскидать по внутрякам, где-то раскидалось (где были страницы с вхождением тайтла или хоть какой-то плотностью), а где-то нет - запросы вышли за 1к+.

С уважением, Александр. Продвижение сайтов (http://www.ldi.ru). Интересные обзоры игр. (https://www.youtube.com/channel/UCICcg0J31VIxsv3tkpQTUfw)
ПТ
На сайте с 11.11.2007
Offline
27
#1295

Пишу сейчас статью на Хабр про этот всплеск Яндекса, зашел чисто посмотреть, сколько вы мне минусов тогда впаяли. Можно не отвечать.

А. -5055 Ну, так я примерно и думал. Ничего не изменилось. Ясно.

Питерский трамвай
[Удален]
#1296

да, скоро их алгоритмы будут обучившись текста писать, новости, поэмы, млять

CR
На сайте с 29.10.2005
Offline
198
#1297

G00DMAN, закономерности есть ещё с начала Снежинска. Мои подопечные, где экспериментальным путем резки по живому, была доказана необходимость портянок, невзирая на средние значения по топу - чувствуют себя с новым "фильтром" великолепно в вполне себе конкурентных топах (среднячковые СК). Самое веселое, что многие конкуренты улетели в небытие с портянками, а мои живут и здравствуют (>30 вхождений у моих, а среднее по топу стало на уровне 5-12).

У меня к вам вопрос немного иного плана, ибо вышку прогуливал.. если всетаки допустить, что это подкрутка MatrixNet, то во что она выльется? Не может же просто часть формулы изменится без последствий.. (или может?) на место количества вхождений ключа в документ неизбежно усилены другие факторы, но какие?

С Уважением, Евгений
lcatlas
На сайте с 29.11.2008
Offline
151
#1298

CatRegist, ну почему же они должны быть сразу усилены. Там же идет выборка для переобучения. Они подкручивают не какие-то параметры, они скармливают эталон/мусор и отсеивают хорошие/плохие сайты из топ 20. Дальше топ20 - сайты могут идти хаотически и не иметь ничего общего с релевантностью, по заявлению самого Садовского.

Формула меняется, но другие факторы могут оставаться на том же самом уровне до следующей выборки. К примеру - если взяли 20 доноров, с простыней в 20 тысяч символов (грубо говоря), и средним количеством вхождений 10% по одному коммерческому ключу, загрузили в MatrixNet и сказали фас... MatrixNet просто выбросил из топа все похожие документы с какой-то погрешностью.

Впринципе для меня это логично, потому что если взять тот же bdbd - их плотность из тайтла всего 2%, а уникальных вхождений чуть больше 5%. И это лишь пример того, почему их не выкинуло по этой выборке.

[Удален]
#1299

а этот почему не улетел? http://www.aromas.ru/

lcatlas
На сайте с 29.11.2008
Offline
151
#1300

Да нет, я видел все примеры в топике. И в одном, и в другом. Если MatrixNet действительно существует в том виде, в котором его афиширует яндекс - он должен допускать ошибки. И да, я к сожеланию не видел, и не знаю, на каком месте этот портал был до этого. Вполне возможно, что он выкинул из топа еще более суровые сайты или же не включил его в выборку по этому запросу. (не учел его как коммерческий)

Вариантов может быть масса.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий