G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
DenRaskovalov 17.11.2009 23:23:42

Господа, спасибо вам за вашу бурную реакцию и живой интерес ;)

Да, эта страница нерелевантна запросу [a5]. Причины ясны. Википедия имеет на страницах "скрытый текст". Посмотрите на HTML:
<div class="printfooter">
Источник — «http://ru.wikipedia.org/wiki/%D0%A5%D1%83%D0%B9»</div>

В линках тоже %A5 встречается. Конечно, это проблема нашего токенизатора, который мог бы и должен с %-последовательностями работать так же, как и с HTML entities.

Это обидная ошибка/недочет. Будет исправлена в рабочем порядке.

Оба-на... Яндекс учитывает в текстовой составляющей ранжирования линки? Или Расковалов просто для большей убедительности про линки вставил? Типа на роеме все равно не просекут? :)

Если в обработчики текстов придется теперь втыкать токенизаторы, то это как-то кисловато слегка. :)

wolf:
Будете добавлять в неделю по ключевому словечку в контент? :)

Даже такой метод не особо катит. Т.к. нет уверенности, что проиндексированное ключевое словечко уже учлось в ранжировании. :)

wolf:
Ну, может быть признак, что-то типа взвешенный tf по анкор-файлу.

Вопрос - как взвешенный? Если тупо-среднее, то все разруливает 1 анкор с большим российским пэйджранком (не путать с PR гугла) и бомбинг по ГС. Чтобы такие методы пресечь нужно взвешивать примерно так, как в свое время devzev предлагал со своим "трастовым окном" - строить распределение "жирности" и отсекать длинные хвосты с обеих сторон. Но это как-то маловероятно. :)

wolf:
Кстати, то, что один фактор (тот, которые "feature" по Сегаловичу) может в куче параметров модели сидеть - хреновый момент. В итоге зависимость результата от него может получиться ни фига не монотонная. К примеру, возьмем tf. Может, получиться, что увеличивая его значения, мы на определенных интервалах можем ухудшать результат (привет портянкам)! Причем, интервалы эти кусочно-постоянные в общем случае будут зависеть от других факторов (если в параметрах сидят произведения разных факторов). То есть tf, допустим в 10, для одного документа будет хорошим результатом, а для другого - плохим. Вот где основная засада-то...

Ну да. Остается уповать только на то, что на каждый хитрый MatrixNet найдутся свои метрики с винтом. :)

VSS:
простите, а про возраст сайта, что думает?. вот у меня есть сайт ему 15 мес от роду он старый?

Кто "что думает"? :)

Я ничего не думаю, не заметил жесткой пессимизации пока. Из собственных проектов некоторые молодые вылетели на 2-ю страницу, но по "бюджетной классификации" им там и место. :)

Кстати, про возраст. Вопрос про "старые ссылки" из той же серии, что и вопрос про "жирные" несколькими постами выше. Поделить их на кучки "молодые"/"не очень"/"старые"/древние"? ;)

У меня тут родились 2 реплики по поводу. :)

1. Зачем отключили фильтры у доноров и "ты больше не последний" /(с) Расковалов/? Я тут чистил-чистил анкор листы, чистил-чистил, а в итоге конкуренты с тупым площадным бомбингом и бОльшими бюджетами повылазили. "Группка оптимизаторского гнева" негодуе!!11 :D

2. Вопрос о "жирных" ссылках. К паре (запрос,документ) по словам Сегаловича прилагается всего несколько сотен признаков. А в анкор-листе документа у некоторых (не будем показывать пальцем) наберется несколько тысяч анкоров, влияющих именно на этот запрос. Естественно, что все они с разной "жирностью". Дык, киньте кто-нить идею, как эти тысячи разных "жирностей" уместились в сотни признаков? На кучки анкор-файл разбили чтоле? Не, ну я еще понимаю, если бы разбили всего на две кучки по мадридскому алгоритму, но что делать с разной "жирностью"? :)

юни:
Какой из нескольких тысяч факторов (которые, опять же, так или иначе учитывались оптимизаторами, ведь правильно?) после обучения вдруг вытеснит типичные факторы прежних релизов, навроде количества точных вхождений в тексте документа сайта-акцептора, или примерно одинаково понимаемой "жирности" ссылки с донора?

Не правильно. Несколько тысяч факторов в формуле ранжирования теперь учесть невозможно, они не просчитываются, там какие-то "дикие" функции. Просчитать можно признаки пары (запрос,документ), которых несколько сотен по словам Сегаловича. И есть гипотеза, что "примерно одинаково понимание" каких-то из этих признаков может сильно измениться.

юни:
Допустим, в обучаемых парах "запрос-документ" оценщики отдавали предпочтение страницам, перегруженным тегами заголовков и километровым мета-дескрипшн - что, в итоге обученная формула будет ставить схожие ресурсы выше остальных в выдаче?

Если мета-дескрипшин присутствует в признаках и если такие оценки попадут в обучающую выборку, то да. Но слишком много "если". :)

aalexeev:
Ув. Гудман, что касается вашего пессимистичного настроя могу сказать что яндекс никогда не сможет победить сеошников.

А кто Вам сказал, что у меня пессимистичный настрой? Мне наоборот интереснее стало.

aalexeev:
Мы (оптимизаторы) боремся НЕ с Яндексом,а между собой.

Некоторые еще и с Яндексом пытаются бороться. :)

aalexeev:
Знать точную форумлу алгоритмов и медитировать на ICF не надо - достаточно разбираться в ранжировании на пол шага лучше товарищей по цеху.

Ну не надо, так не надо, спорить бессмысленно на эту тему.

юни:
Если новая формула ранжирования так или иначе базируется на оценках асессоров, то оценки-то эти, по релевантности запроса документу, всё равно формируются на базе предыдущей выдачи (которая - во всяком случае, в коммерческой её части - сформирована сеошниками, по всем известным принципам внутренней и внешней оптимизации).

Или всё-таки возможен вариант, когда даже в чисто коммерческом сегменте (вроде тех же кондиционеров, где сайты "накачаны" вплоть до 50х позиций) обучение на практически 100% сеошной выдаче приведёт к тому, что в топе появятся некоммерчески-"естественные" ресурсы?

Возможно такое?

Маловероятно. Я думаю, что сео-топы останутся коммерческими, только сделаются менее просчитываемыми, если не найдутся лекарства. :)

pro22:
я далек от математики, но с ваших разговоров сложилось впечатление что алгоритм теперь стал обучаем.

Алгоритм давно уже был обучаем, сейчас сменилась методика обучения.

pro22:
То есть теперь раз в месяц можно показать алгоритму "хорошие" и "плохие" сайты и он сам определит важность тех или иных факторов релевантности? Тогда яндексоидам не нужно отслеживать новые ухищрения СЕОшников или дорвейщиков и ГСспамеров, алго подумает и сделает это за них.

Я несу бред или где то мелькнула верная мысль?

Отслеживать ухищрения сеошников или дорвейщиков - не единственная задача Яндекса. Сео-запросы в общей массе не составляют большинства. А выдача должна быть адекватной по любому запросу, это в идеале.

Если в обучающую выборку сунуть некоторое количество пар (запрос,дорвей) с низкой "истинной" релевантностью, то по этим конкретным запросам дорвеи конечно же вылетят из топов, а вот найдутся ли таким образом все дорвеи данных типов? Может и найдутся, не зря же у документа сотни признаков. :)

CatRegist:
G00DMAN, ну есть жеж неоспаримые изменения, к примеру, ужесточение контента и как следствие соплей, title и т.д. многое можно проследить уже сейчас.. будет лучше, будет все хорошо, но это не мешает начинать править старые косяки (которые проявляются только в такие дни жести) уже сейчас =)

Неоспоримые? А на какой выборке исследовалось? Я по не сложным факторам достаточно много парсю для изучения, закономерностей как бы маловато пока. :)

Всего: 1960