G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
Husohuso:
"Вычисляется релевантность страниц, а не сайтов."

почему же серп в общем и целом выстроен так, что выше находятся сайты с большим количеством страниц с упоминанием ключевика (кнопочка "еще" под сниппетом), и теперь в топе-10 почти не встретишь сайта где ключ входит только в одну страницу, пусть и с отлично оптимизированным текстом?

Ну да, "почти". Но так в общем-то было задолго до матрикснета. :)

Факторы, основанные на "еще с сайта" скорее всего есть, хотя у простейших, типа количество документов, корреляции с выдачей пока не обнаружено. Такие факторы, как и тИЦ, будут общими для всех документов сайта. То, что факторы такие есть, совсем не означает, что вычисляется некая "релевантность сайта запросу".

SAlex:
то есть при определении релевантности сравниваются не страницы, а сайты. а затем уже на сайте определяется релевантная страница. Либо как вариант - сначала определяется значимый топ30 сайтов, а затем уже среди страниц сайтов из топ30 происходит ранжирование. Это уменьшает потребные мощности на вычисление. Второстепенное - что потом не будет востребовано - то и не вычисляется.

Нет такого. Вычисляется релевантность страниц, а не сайтов. Это доказывает, например, такой факт. Когда наши боевые страницы пессимизировали за спамность, их релевантность запросу иногда падала ниже, чем у других страниц сайта, которые и попадали в выдачу вместо боевых. Но эти другие находились уже не в топ-30, а гораздо дальше, иногда и за топ-300. Хотя пессимизация проходила после вычисления релевантности по матрикснету.

ru_roll:
Зачем они тогда новое ранжирование выкатили?

Какое новое? Вы имеете ввиду вчерашний глюк, или где?

Ladycharm:
Смущает то, что они не просто не логичны - они не имеют под собой физического смысла по возможности корреляции: "значение - выдача".

Это с Вашей точки зрения. Корреляция с выдачей у таких факторов слабая. ТС в первом посте написал, что Людкевич считает, что корреляция не больше 20% на простых факторах, я считаю, что она еще меньше, кроме исключений, типа пока еще живого фактора "ключ в имени домена" и подобных.

Ladycharm:
Когда система опирается на "левые" факторы - она будет неправильно самообоучаться и уйдёт в разнос (обратные связи не будут работать корректно).

Факторы ни разу не левые, обучение вроде не плохо идет. :)

Ladycharm:
Получаеццо, можно и фазу луны к МатрихНету прикрутить?

Фазу луны сложно, нужно же каждой паре (запрос, документ) значение такого фактора присваивать, хватит ли фантазии? :D

Ladycharm:
Предлагаю сделать небольшой эскурс в историю и вспомнить, что такое ВИЦ, а что такое ТИЦ и в чем их разница.

Экскурсы в историю - дело иногда не вредное, но в данном случае это не поможет.

Ladycharm:
Зачем включать ТИЦ в формулу ранжирования, когда у Яндекса есть точный физический параметр - ВИЦ?

Ага, т.е. понимать что-то в матрикснете Вам влом, поэтому тИЦ не влияет? Раньше же не влиял! :D

Попробую объяснить на пальцАх...

На этапе обучения функции ранжирования яндексоидам сейчас нужно большое количество более-менее линейно независимых факторов для пары (запрос, документ). Нужны тысячи таких факторов, а может и десятки тысяч в будущем. Для этого берутся все очевидные факторы, такие как тИЦ, пэйджранк (вИЦ), кол-во прямых вхождений ключа в документ, тоже в анкор-лист и т.д. Понятно, что таких очевидных факторов очень много не придумать, они быстро кончаются. Поэтому для начала к ним добавляются всяческие метрики, посчитанные на начально взятых факторах с учетом частотных и других баз Яндекса. Метрик приходится добавлять много, поэтому (учитывая то, что полученные факторы должны быть более-менее линейно независимы) простые метрики быстро кончаются и начинаются более сложные, требующие в сумме бОльших, чем раньше, вычислительных мощностей. В итоге получается какое-то число факторов, Людкевич считает, что их примерно 420. Этого мало, поэтому с некоторых пор в Яндексе стали использовать как факторы их произведения, типа тИЦ*пэйджранк. Они не логичны с точки зрения житейской логики, а шо делать... Из набора факторов нет никакого смысла выкидывать тИЦ, только потому, что раньше он не влиял на выдачу. :)

Более того, если все же не полениться и разобраться в том, как устроены табличные функции в текущей формуле ранжирования, то можно заметить, что тИЦ будет влиять даже при поиске по сайту, когда он одинаков у всех документов. Полезно подумать, почему это так. ;)

Ladycharm:
ТИЦ - основной фактор ценообразования на биржах ссылок. Имхо, Яндекс пытается повлиять на активность этого теневого бизнеса.

Ну так прямой корреляции и близко нет, я же уже писал в этой же ветке. "Влияет" и "больший тИЦ больше влияет" - совершенно разные утверждения. :)

Ladycharm:
PS: На слова wolf-а вполне можно ссылаться - он всегда очень аккуратно и корректно высказывается, чётко определяя понятия и избегая двусмысленности. Даже выдернутые из контекста, его слова практически не меняют смысл.

Сергей к своему имиджу относится серьезно, молодец. :)

Сергей1982:
1.Тиц все-таки влияет на выдачу

Дык, это очевидно всем, кто хоть немного понимает, что происходит в матрикснете. тИЦ может не являться фактором только в одном случае - между отделами поиска и ЯКа в Яндексе жесткие терки, поэтому обмен данными минимальный. Но такого нет наверняка. А, учитывая то, какие факторы приходится использовать в матрикснете, не использовать тИЦ глупо. :)

Раньше тИЦ не являлся параметром формулы релевантности, но время это прошло.

Для господ не в теме поясню: "влияет" и "хорошо коррелирует" - не одно и то же. :D

Сергей1982:
2. По Геозависимым сайтам следует долбить региональными ссылками.

Хорошо, если на самом деле так, хоть чья-то оптимизаторская жизнь упростится... :)

Сергей1982:
3. Основных факторов примерно 420, помимо неск тыщ сопуток.

Т.к. большинство факторов не известны, то пофигу сколько их точно. Важен примерный порядок.

Сергей1982:
4.Ни один из факторов не влияет на выдачу на 20%😂

Ну, это не очевидно, кстати. Тем более, что многие факторы не известны, не проверить. Я подозреваю, что некоторые частные факторы могут влиять больше.

Сергей1982:
А еще вспомнил - кликабельность и посещаемость сайт тоже влияет...

Мне на рифе Сегалович сказал, что это не так, точнее - не повлиять на позиции накликом. Сказано было при толстых свидетелях. :)

wolf:
А чем условия Матрикснета противоречат-то?
А что мешает в Матрикснет включить до кучи соответствующий фактор с учетом качества ссылочного? Ну, например, тот же tf*idf, но только по хорошим ссылкам анкор-листа? ;)
То есть, грубо говоря, для плохой ссылки мы получим только значение Х по фактору "tf*idf по полному анкор-листу", а для хорошей при всех прочих равных - то же X по тому же фактору плюс Y по фактору "tf*idf по анор-листу из хороших ссылок". Причем, Y может быть сильно больше Х.

Не, так не покатит. Если методики для асессоров кардинально не сменили и в обучалово попали сайты с большим и никаким Y, но хорошо заточенные под запрос по тексту, то релевантность в обучалове у них будет одинаковая. Чтобы эффект от большого Y имел место, обучающую базу нужно корректировать после асессора, занижая релевантность документам с большим X и малым Y. Но править автоматом асессорскую работу реально стремно, там косяков повылазит куча. Поэтому в матрикснет оно плохо втыкается, несравнимо проще и логичнее применить пессимизацию за большой (X-Y). :)

Tarry:
Не планируется ли когда-нибудь начать учитывать при расчёте конкуренции не только бюджеты топа, но и количество найденных документов, а главное средний возраст топа. Звучит несколько фантастично, но выполнимо вполне.

Данные параметры вполне могут быть важными, но прямой корреляции с выдачей по ним нет, потому в рекомендациях на автомате их не реально сейчас использовать. Но показывать можно, инфа не вредная для размышлений. :)

Tarry:
Вопрос надо ли, но ведь сейчас ситуация когда в топе по ВЧ запросу с 50+млн. найденных документов висят трастовые старички с каталожными и форумными беками. И беков этих может быть 200 штук и всё. На анализе таких запросов спотыкаются абсолютно все агрегаторы и руки в том числе, выдавая чересчур оптимистичные суммы :)

Миха обещал продавить новую формулу расчета бюджета. Если кто-то пытался порвать "старичковый" топ но ниасилил - его нужно найти, не зависимо от места в выдаче. Траблы возникнут только в тех топах, в которых конкуренция реальная есть, а сео-документов еще не достаточно. Такие адекватно оценить сложно.

Dubovoj:
я предполагаю, что нет фильтра именно на ссылочное с донора НЕПОТА, а не на релевантность конркетного сайта.

Я немного не о том писал. Мысля была такая: большинство фильтров (если не все) не зависят от текущих алгоритмов ранжирования, т.е. пофигу фильтрам на матрикснет. :)

Что касается непота, то, скорее всего, его отменили/(сильно урезали) в прошлом октябре-ноябре, перед Снежинском (точнее дату не локализую - склероз :( ), когда амнистировали огромную кучу акцепторов.

Dubovoj:
А вот я не стану однозначно утверждать о кол-ве параметров, тем более что ни вы ни я не сможем это аргументированно показать.

Ну поверьте на слово, многабукаф влом писать. :)

Dubovoj:
А ну ка скажите нам как определить универсальных качественных доноров в нынешней ситуации?

А где я говорил, что определяю "универсальных качественных доноров в нынешней ситуации"? ;)

Dubovoj:
Сразу давайте отметим - НПС сейчас передают все доноры ( или почти все :) и речь не о них.

Похоже, что проставленный на любом внешнем доноре уникальный анкор станет НПС через некоторое время. Иногда даже с донора вне текущего поискового индекса.

Dubovoj:
Гипотеза 1
Предположим
Казалось бы, чтобы получить волшебный список вайтлистов, достаточно просто отслеживать топы и положительную динамику. Нас интересуют сайты, у которых не поменялся текст и которые продвигаются сапой. То есть грубо говоря, у сайтов из топа должны быть в наличии хорошая доля рабочих ссылок и выстреливают они в немалой части за счет них.

Гипотеза не верная.

Dubovoj:
Гипотеза 2
Давайте порассуждаем по поводу матрикснета. Нужен ли ему фильтр непота вообще?

Я высказывал недавно след. мнение: фильтры, как правило, лежат вне ранжирования. Т.е. страница может получить топовую релевантность в матрикснете, после чего отминуситься по фильтру, например умножением на какое-нибудь 0.8-0.9. Фильтры служат для наказания отдельных вебмастеров за борзость, за тупость и т.д. Встраивать эти фильтры внутрь матрикснета (как и любой другой функции ранжирования) смысла нет. Это трудоемко и беспонтово.

Dubovoj:
каждая ссылка имеет свои параметры и вот эти параметры и вставляются в функцию.

А вот это не верно. В функцию вставляется достаточно небольшое количество параметров, на которые влияет внешнее ссылочное, этих параметров иногда явно меньше, чем анкоров с нужными вхождениями на документ.

Dubovoj:
при абсолютно безбашенном пересчете матрикснета параметры умножаются на другие параметры и поэтому для разных сайтов в итоге мы можем увидеть разные значения. А скажем при простановке на сайт только "рабочих ссылок":) далеко не факт что набор параметров при пересчете дадут плюс.

Нет там никакой безбашенности.

Dubovoj:
Мой вывод -
Сейчас у нас есть только возможность узнать сработала ли конкретная ссылка для конкретного сайта.

Спорное утверждение. Конкретная ссылка может дать вклад в некоторое количество входных параметров документа, причем эти параметры будут пересчитаны с учетом этой ссылки в разное время. И изменение параметров может повлиять на позиции сайта отрицательно, что совершенно не говорит о плохом качестве донора.

Dubovoj:
Все эти бега за белыми литами листами вовсе не однозначны, посмотрите на примеры, уже большинство ужесточило работу с ссылочным, а эффекта намного лучщего нет.

Это да. По слухам эффекта даже прежнего давно нет... :D

Dubovoj:
Вес ссылки передается абсолютно не так как раньше, и именно об этом и пытались намекнуть яндексоиды на рифе. Есть функция, и есть куча разных параметров у донора и ссылки, а пересчет такой, что в итоге однозначного утверждения о хороших,простых и плохих донорах сделать однозначно нельзя.

Ну да, все стало слегка сложнее.

З.Ы. Хотя я продолжаю пользовать некую процедуру "определения непота", которая наверняка не катит, но привык. :D

Всего: 1960