Вспомните, что в яндексе используют ручную сортировку выдачи - Общие вопросы оптимизации

Возраст и траст сайта: дискретны или непрерывны?

Mantius · 2009-03-07T18:44:15.0000000Z

Возник такой вопрос: какой характер поведения(дискретный/непрерывный) у этих величин при расчете влияния на выдачу? Скажем, есть ли набор каких-то четких отметок возраст, переходя через которые сайт совершает "скачек" в выдаче или он просто становится авторитнее с каждым днем/часом и такие отсечки выделить нельзя? Также с трастом: скажем, сайт продвигается по запросам "рога" и "копыта", но среди внутренних страниц есть страница про "комбикорм", которая не имеет ни одной ссылки извне на себя. По мере роста авторитетности сайта эта страница поднимается в выдаче: будет ли этот подъем плавным по мере прибавления количества ссылок(за каждую ссылку) на другие страницы сайта или он будет носить скачкообразный характер, например, прибавляя одну у.е.(условную единицу) авторитетности за каждую сотню входящих ссылок?

[Удален]

10 марта 2009, 20:04

#41

xant:
Как быть с навигационными запросами? Любой, самый молодой сайт, если он не под фильтрами, даётся на первом месте, если искать по его урлу.

Вариант, что урл и запросы по урлу-мощнейшие факторы ранжирования не рассматривается? Например, есть запрос "vrn", как я ни старался, даже в топ-100 попасть нереально, если в адресе сайта нет заветных букв. А ведь в этом топе полно сайтов, у которых и бэклинки-то(вообще любые входящие ссылки на сайт) навряд ли есть, зато есть эти буквы в домене.

xant:
С названием сайта, если оно достаточно уникально, то же самое...

А ничего, что у других сайтов просто отсутствует это слово на странице и в тексте ссылки уже не рулит? ПРОИЗВЕДЕНИЕ, произведение множества факторов, вот и всё.

xant:
Как быть с НПС-результатами, когда текстовый фактор равен нулю? Как быть с результатами с нулевым ссылочным?

Да так и быть, что добавление недостающих факторов резко подкидывает сайт в выдаче. Был сайт, продвигаемый по запросу "пластический хирург" без данных слов на странице. Горе-оптимизаторы сколько ни бились не могли подняться выше 40-50й строчки. Я просто тупо добавил это словосочетание на главную, в тайтл и т.п. пару апов ситуация не менялся пока яша не обновил кэш: после обновления сайт оказался на 10й строчке.

xant:
Мое имхо - итоговая формула вычисления релевантности представляет собой взвешенную сумму различных факторов. Отдельно накладываются только фильтры.

Что-то идет суммой, конечно, но в итоге всё равно используется произведение, т.к. конечная цель-естественность, так вот когда один фактор зашкаливает, а другой в ауте-это никуя не естественно и потому не должно высоко ранжироваться.

Например, есть куча ссылок-хорошо, но они закуплены кучей бездумно. Если брать сумму, то сколько ты ни закупай, пусть не дадут премию за равмомерный прирост ссылок, но пока под фильтр не попадешь тупо задавишь массой, о какой естественности может идти речь? Если же брать произведение, то потуги горе-оптимизатора за раз "купить" себе топ разобьются о стену естественности, когда будут помножены на "близость" скорости прироста ссылок к идеальной.

И так со всеми более-менее значимыми факторами.

DC

13

drCurpatov

10 марта 2009, 21:01

#42

мне что-то кажется, что есть потолок роста за один ап. просто из логических сооборажений: набирают кучу модераторов - должны же они как-то поток работы контролировать падающий на них. тоесть мне кажется чем ближе к топ 10 тем меньше скачек за 1 ап.

из этого следует, что например весь комплекс мер применять сразу не нужно, ведь например есть параметры основанные на скорости роста (например ссылочной массы)

по поводу именно дискретности согласен с "Dryoma", все относительно. И все таки поясните на что это могло бы влиять? и еще как я тут читаю - ответы полученные по усреднению общественного мнения как правило верны с низкой достовеностью 50% все таки если у человека эксперимент на руках, то я лучше б ему верил чем большенству

[Удален]

10 марта 2009, 21:12

#43

drCurpatov:
мне что-то кажется, что есть потолок роста за один ап. просто из логических сооборажений: набирают кучу модераторов - должны же они как-то поток работы контролировать падающий на них. тоесть мне кажется чем ближе к топ 10 тем меньше скачек за 1 ап.

Вы хотите сказать, что в яндексе используют ручную сортировку выдачи? Комплимент Яше, однако! Впрочем, мне его алгоритмы всегда казались более перспективными, чем гугловские, вот вам слова простого человека после оценки выдачи в топ-10: как будто люди сортировали.

drCurpatov:
по поводу именно дискретности согласен с "Dryoma", все относительно.

Этот пользователь не сделал ни одного утверждения относительно дискретности в этой теме. С чем же вы согласны? С отсутствием мнения?

drCurpatov:
И все таки поясните на что это могло бы влиять?

Разве в теме еще раз сто не сказали, что на выдачу?

drCurpatov:
и еще как я тут читаю - ответы полученные по усреднению общественного мнения как правило верны с низкой достовеностью 50%

Какое отношение к дискретности выдачи имеет это околофилосовское утверждение?

drCurpatov:
все таки если у человека эксперимент на руках, то я лучше б ему верил чем большенству

А эксперименты проводят и трактуют их результаты разве не люди? Или проводят и потом объясняют их исключительные личности, которые ошибаться не могут?

1183

wolf

11 марта 2009, 06:22

#44

devzev:
Он любит когда контент регулярно обновляется (от этого параметра зависит регулярность прихода робота на сайт).

А что - регулярность прихода робота на сайт - это уже фактор ранжирования? :)

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )

DC

13

drCurpatov

11 марта 2009, 10:44

#45

троллинг какой-то разводите

Вы хотите сказать, что в яндексе используют ручную сортировку выдачи?

передергивание фактов. Выдачу проверяют, а не формируют.

http://company.yandex.ru/inside/job/web_analist.xml

Дискретность - относительное понятие, поэтому приведите пожалуйста внятный пример где и как эта дискретность могла/должна была проявиться - тогда быть может и вспомнится ситуация.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

11 марта 2009, 10:47

#46

В общем, я ответы на свои вопросы получил(большое спасибо всем, кто отписался по делу, а не для самоутверждения), чей-то там троллинг поддерживать и отвечать на вопросы, на которые уже ответил прямо в этой теме не собираюсь.

Тему можно закрывать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

65

xant

11 марта 2009, 11:00

#47

Mantius:
ПРОИЗВЕДЕНИЕ, произведение множества факторов, вот и всё.

Вы поймите, что формулу релевантности пишут не программисты, которым "так захотелось", а математики на основе серьезного анализа огромных объемов данных. Такой анализ проводится методами мат. статистики. Все формулы уже есть - нужно только составить адекватную модель и обоснованно эти формулы применить.

Фишка в том, что большинство факторов, используемых для вычисления релевантности, известны не точно, а с некоторой ошибкой. Возьмем, например, текстовое - казалось бы, откуда в TF*IDF ошибка? А вот откуда: тексты страниц известны не на момент запроса юзера к яндексу, а на тот момент, когда их индексировал робот. С тех пор страницы могли измениться и, соответственно, могло измениться текстовое. И второе: на многих сайтах есть динамические блоки типа "списков юзеров онлайн" и ротаторных блоков вида "популярные статьи/товары" - такие страницы изменяются при каждом обращении к ним. Аналогично со ссылочным и статвесом.

Для получения вида формулы общей релевантности необходимо знать статистическое распределение ошибки каждого фактора. Узнать тип распределения из неких высших соображений нельзя, но можно подобрать экспериментально. Собирается статистика по репрезентативной выборке данных, строится гистограмма распределения ошибки, затем эта гистограмма апроксимируется различными распределениями, а результат апроксимации оценивается критерием Колмогорова-Смирнова.

Я не встречал, чтобы где-нибудь публиковались данные о подобных исследованиях, но могу предположить, что большинство факторов подчинены законам Гаусса и Лапласа. Распределение Гаусса (оно же - "нормальное распределение", "закон 80/20" и т.п.) встречается "в природе" чаще всего, распределение Лапласа в целом похоже на распределение Гаусса, но отличается более "длинным хвостом" (да-да, тот самый "long tail") и часто встречается при обработке в том числе социологических данных.

Так вот, из мат. статистики следует, что для вычисления совокупного влияния нескольких факторов, подчиняющихся закону Гаусса, необходимо использовать сумму этих факторов. Для закона Лапласа используется, если мне не изменяет мой склероз, среднеквадратичное, то есть квадратный корень из взвешенной суммы квадратов значений факторов.

Операция произведения используется для гамма-распределения (гамма-функция это обобщенный факториал). Гамма-распределение в природе встречается довольно редко, я так сходу назову только радиолокацию. Поэтому для использования произведения нужны очень весомые математические доводы.

Если нужно учесть влияние факторов с разными распределениями, нужно брать ручку/запускать Mathematica и считать. В принципе, ничего сверхсложного в таких вычислениях нет, нужно просто владеть мат. аппаратом.

Что будет, если взять неправильную операцию, например, произведение для гауссовых величин? Ничего хорошего не будет) Функция будет вести себя неадекватно: игнорировать любые изменения одних факторов и "колбасится" от небольших изменений других. В результате будет каждый ап - абсолютно новый серп. Так как этого не наблюдается, то можно предположить, что с математиками в яндексе и гугле всё в порядке) Что, в принципе, известно и без мат. статистики.

Что касается ваших наблюдений по резким прыжкам при резком изменении текстового, то это доказывает всего-лишь относительно большой вес текстового фактора, и ничего более.

Эксклюзивные сайты и веб-2.0 приложения под ключ. Дорого.

12

Dryoma

12 марта 2009, 00:58

#48

xant:
Операция произведения используется для гамма-распределения (гамма-функция это обобщенный факториал).

Гамма-функция в гамма-распределение входит только как нормировочный множитель, а собсно распределение x^n exp[-x]

xant:
Так вот, из мат. статистики следует, что для вычисления совокупного влияния нескольких факторов, подчиняющихся закону Гаусса, необходимо использовать сумму этих факторов.

Ну и словечки!! Совокупное влияние 😮 Это еще что? А что если мне не нужно ваше совокупное влияние а нужно просто произведение?

xant:
Что будет, если взять неправильную операцию, например, произведение для гауссовых величин? Ничего хорошего не будет) Функция будет вести себя неадекватно: игнорировать любые изменения одних факторов и "колбасится" от небольших изменений других.

Вообще говоря то, как меняется произведение xy при изменении x и y определяется только лишь частными производными. Причем тут вообще функции распределения 😮?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

DC

13

drCurpatov

14 марта 2009, 08:08

#49

Хант правильно все пояснил.

вопросы типа

Ну и словечки!! Совокупное влияние Это еще что? А что если мне не нужно ваше совокупное влияние а нужно просто произведение?

Звучат не понятно. Зачем вам это нужно? Если вы оцениваете влияние нескольких стат факторов на конечную величину, то наиболее вероятно (опять же так обычно себя ведут статистические законы) ваше влияние описано функцией вида "сумма(коэффициент*фактор влияния)"

Если вы думаете, что возраст домена или траст входят в какой либо фактор влияния с большим коэффиц., то расскажите ваше предположение. Чтобы коэффициент распадался на множители нужны тоже очень веские доводы связности этих множителей и зависимости их друг от друга, как правило такие связи очень редки.

Вообще говоря то, как меняется произведение xy при изменении x и y определяется только лишь частными производными. Причем тут вообще функции распределения ?

ну и посмотрите на эти производные при экстримальных значениях x ->0, y->безконечность

связь xy как правило говорит о эффективности на кол-во, например число рабочих на время - это человеко часы производства чего либо. А вот возраст домена на кол-во ссылок - это что? что-то вменяемое?

Именно поэтому теория ху не вызывает доверия - нет доводов.

224

savage

14 марта 2009, 08:20

#50

drCurpatov:

ну и посмотрите на эти производные при экстримальных значениях x ->0, y->безконечность

Только бесконечность :), а не без конечностей :)

Mantius:
Что-то идет суммой, конечно, но в итоге всё равно используется произведение, т.к. конечная цель-естественность, так вот когда один фактор зашкаливает, а другой в ауте-это никуя не естественно и потому не должно высоко ранжироваться.

Многие, если не все, запросы можно выводить только чисто ссылочным, не имея ни одного вхождения слова в текст на странице. Вопрос только в количестве и качестве ссылок, которое необходимо для этого поставить, ну и в бюджете продвижения. Так что все-таки сумма. Далеко не все что в топе - естественно, но тем не менее еще как ранжируется.

Купить / продать сайт ( https://www.telderi.ru/?pid=ca1f70 ) | Недорогой и надежный хостинг ( https://www.get-host.ru )

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Дзен реализовал для авторов возможность вывода денег через СПБ

Возраст и траст сайта: дискретны или непрерывны?