Ну да, "почти". Но так в общем-то было задолго до матрикснета. :)
Факторы, основанные на "еще с сайта" скорее всего есть, хотя у простейших, типа количество документов, корреляции с выдачей пока не обнаружено. Такие факторы, как и тИЦ, будут общими для всех документов сайта. То, что факторы такие есть, совсем не означает, что вычисляется некая "релевантность сайта запросу".
Нет такого. Вычисляется релевантность страниц, а не сайтов. Это доказывает, например, такой факт. Когда наши боевые страницы пессимизировали за спамность, их релевантность запросу иногда падала ниже, чем у других страниц сайта, которые и попадали в выдачу вместо боевых. Но эти другие находились уже не в топ-30, а гораздо дальше, иногда и за топ-300. Хотя пессимизация проходила после вычисления релевантности по матрикснету.
Какое новое? Вы имеете ввиду вчерашний глюк, или где?
Это с Вашей точки зрения. Корреляция с выдачей у таких факторов слабая. ТС в первом посте написал, что Людкевич считает, что корреляция не больше 20% на простых факторах, я считаю, что она еще меньше, кроме исключений, типа пока еще живого фактора "ключ в имени домена" и подобных.
Факторы ни разу не левые, обучение вроде не плохо идет. :)
Фазу луны сложно, нужно же каждой паре (запрос, документ) значение такого фактора присваивать, хватит ли фантазии? :D
Экскурсы в историю - дело иногда не вредное, но в данном случае это не поможет.
Ага, т.е. понимать что-то в матрикснете Вам влом, поэтому тИЦ не влияет? Раньше же не влиял! :D
Попробую объяснить на пальцАх...
На этапе обучения функции ранжирования яндексоидам сейчас нужно большое количество более-менее линейно независимых факторов для пары (запрос, документ). Нужны тысячи таких факторов, а может и десятки тысяч в будущем. Для этого берутся все очевидные факторы, такие как тИЦ, пэйджранк (вИЦ), кол-во прямых вхождений ключа в документ, тоже в анкор-лист и т.д. Понятно, что таких очевидных факторов очень много не придумать, они быстро кончаются. Поэтому для начала к ним добавляются всяческие метрики, посчитанные на начально взятых факторах с учетом частотных и других баз Яндекса. Метрик приходится добавлять много, поэтому (учитывая то, что полученные факторы должны быть более-менее линейно независимы) простые метрики быстро кончаются и начинаются более сложные, требующие в сумме бОльших, чем раньше, вычислительных мощностей. В итоге получается какое-то число факторов, Людкевич считает, что их примерно 420. Этого мало, поэтому с некоторых пор в Яндексе стали использовать как факторы их произведения, типа тИЦ*пэйджранк. Они не логичны с точки зрения житейской логики, а шо делать... Из набора факторов нет никакого смысла выкидывать тИЦ, только потому, что раньше он не влиял на выдачу. :)
Более того, если все же не полениться и разобраться в том, как устроены табличные функции в текущей формуле ранжирования, то можно заметить, что тИЦ будет влиять даже при поиске по сайту, когда он одинаков у всех документов. Полезно подумать, почему это так. ;)
Ну так прямой корреляции и близко нет, я же уже писал в этой же ветке. "Влияет" и "больший тИЦ больше влияет" - совершенно разные утверждения. :)
Сергей к своему имиджу относится серьезно, молодец. :)
Дык, это очевидно всем, кто хоть немного понимает, что происходит в матрикснете. тИЦ может не являться фактором только в одном случае - между отделами поиска и ЯКа в Яндексе жесткие терки, поэтому обмен данными минимальный. Но такого нет наверняка. А, учитывая то, какие факторы приходится использовать в матрикснете, не использовать тИЦ глупо. :)
Раньше тИЦ не являлся параметром формулы релевантности, но время это прошло.
Для господ не в теме поясню: "влияет" и "хорошо коррелирует" - не одно и то же. :D
Хорошо, если на самом деле так, хоть чья-то оптимизаторская жизнь упростится... :)
Т.к. большинство факторов не известны, то пофигу сколько их точно. Важен примерный порядок.
Ну, это не очевидно, кстати. Тем более, что многие факторы не известны, не проверить. Я подозреваю, что некоторые частные факторы могут влиять больше.
Мне на рифе Сегалович сказал, что это не так, точнее - не повлиять на позиции накликом. Сказано было при толстых свидетелях. :)
Не, так не покатит. Если методики для асессоров кардинально не сменили и в обучалово попали сайты с большим и никаким Y, но хорошо заточенные под запрос по тексту, то релевантность в обучалове у них будет одинаковая. Чтобы эффект от большого Y имел место, обучающую базу нужно корректировать после асессора, занижая релевантность документам с большим X и малым Y. Но править автоматом асессорскую работу реально стремно, там косяков повылазит куча. Поэтому в матрикснет оно плохо втыкается, несравнимо проще и логичнее применить пессимизацию за большой (X-Y). :)
Данные параметры вполне могут быть важными, но прямой корреляции с выдачей по ним нет, потому в рекомендациях на автомате их не реально сейчас использовать. Но показывать можно, инфа не вредная для размышлений. :)
Миха обещал продавить новую формулу расчета бюджета. Если кто-то пытался порвать "старичковый" топ но ниасилил - его нужно найти, не зависимо от места в выдаче. Траблы возникнут только в тех топах, в которых конкуренция реальная есть, а сео-документов еще не достаточно. Такие адекватно оценить сложно.
Я немного не о том писал. Мысля была такая: большинство фильтров (если не все) не зависят от текущих алгоритмов ранжирования, т.е. пофигу фильтрам на матрикснет. :)
Что касается непота, то, скорее всего, его отменили/(сильно урезали) в прошлом октябре-ноябре, перед Снежинском (точнее дату не локализую - склероз :( ), когда амнистировали огромную кучу акцепторов.
Ну поверьте на слово, многабукаф влом писать. :)
А где я говорил, что определяю "универсальных качественных доноров в нынешней ситуации"? ;)
Похоже, что проставленный на любом внешнем доноре уникальный анкор станет НПС через некоторое время. Иногда даже с донора вне текущего поискового индекса.
Гипотеза не верная.
Я высказывал недавно след. мнение: фильтры, как правило, лежат вне ранжирования. Т.е. страница может получить топовую релевантность в матрикснете, после чего отминуситься по фильтру, например умножением на какое-нибудь 0.8-0.9. Фильтры служат для наказания отдельных вебмастеров за борзость, за тупость и т.д. Встраивать эти фильтры внутрь матрикснета (как и любой другой функции ранжирования) смысла нет. Это трудоемко и беспонтово.
А вот это не верно. В функцию вставляется достаточно небольшое количество параметров, на которые влияет внешнее ссылочное, этих параметров иногда явно меньше, чем анкоров с нужными вхождениями на документ.
Нет там никакой безбашенности.
Спорное утверждение. Конкретная ссылка может дать вклад в некоторое количество входных параметров документа, причем эти параметры будут пересчитаны с учетом этой ссылки в разное время. И изменение параметров может повлиять на позиции сайта отрицательно, что совершенно не говорит о плохом качестве донора.
Это да. По слухам эффекта даже прежнего давно нет... :D
Ну да, все стало слегка сложнее.
З.Ы. Хотя я продолжаю пользовать некую процедуру "определения непота", которая наверняка не катит, но привык. :D