Не так сложно? Здесь зависимость от более чем двадцати параметров, о которых некоторые вообще понятия не имеют. И с моей точки зрения, пусть и не знают, иначе голова поедет. Главное постепенность и основные вещи.
В одном эксперименте мы получаем таблицу результатов (двумерную), у меня вообще переменных нет. Это я меняю веса, когда ИЩУ ГРАНЬ МИныча, а когда она найдена это не переменная, а число. В файле Ексель набор статичных данных. Каждая строка означает СИТУАЦИЮ, которая фиксируется соответствующим запросо с УКАЗАННЫМИ в этой строке весами и шаблоном запроса (смотрите красным цветом над данными 4 короткие строчки). Правильность данных может быть проверена почти моментально любым, кто удосужится немного подумать как надо подать запрос Яндексу в соответствие с данными СТРОКИ Ексель..
Весело бы было, если бы я дал определение функции релевантности :)
Любое понятие школьникам вводят на примерах, а что такое определение, они начинают понимать только через несколько лет. Я не Эвклид и не Лобачевский строить на форуме аксиоматическую теорию.
Примеры ссылочной тошноты я на форуме давал. Это ЧИСЛО вхождений в страницу самого частого слова (в иной терминологии удобно вводить корень квадратный из этого числа). Для ссылочной надо потерпеть :) Не все сразу. В файлике ниже есть немного об этом (отношение ссылочных тошнот равно в нашем случае отношению высот ступенек Миныча).
Пропорциональность как в аптеке (без свободного члена). Умалчиваю, конечно, если все выложить, форум не стерпит :)
Это без трансляции. Фактически аналогичные опыты Миныч делал раньше, а я их проверял без его помощи (это специально было, как альтернативная проверка). Сейчас идет повторная проверка. Ввиду якобы нового алгоритма.
Сложность в том, что я не могу выкладывать наши секретные тестовые странички, специально подобранные для анализа Яндекса по понятным причинам. А взятые из жизни - довольно сложно анализировать.
Нет не химик, я чистый гуманитарий (мехмат).
Верно. Мы еще до него доберемся как коэффициента пропорциональности :)
Продолжаю выкладывать результаты экспериментов по ссылочному ранжированию.
Так как если все выложить, то можно охренеть неподготовленному человеку, выкладываю маленькую часть.
Пояснения к файлику Ексель смотрите в посте номер один.
Данный эксперимент устанавливает:
1. Функция релевантности при одновременном нахождении ключевиков в ссылке и контенте есть СУММА вкладов.
2. Вклад ссылочного пропорционален (для одного ключевика, например meths):
число ключевикА в ссылке * логарифм веса ключевика/тошнота ссылочная страницы
3 Вклад контента пропорционален (для одного ключевика, например mail):
число ключевикА в контенте * корень из логарифма веса ключевика/тошнота контента страницы
P.S. Все это при МАЛОМ числе найденных ключевиков. При большом числе найденных ключевиков тошнотЫ начинаЮт (могут) зависеть от этого числа.
P.S. Не следует забывать об округлениях (ступеньки Миныча, см. в экселе, видны отчетливо). Опущено, чтобы мысли не затуманивать. Ступеньки по контенту идут по корню из логарифма, по ссылочному - по логарифму без корня.
P.S. Продолжение следует!
🚬
Точно! Индексация индексов!
:)
Перехвалите, Vetra, мышек ловить перествну :)
Два раза лебедев мог быть по двум причинам:
-в тестах ссылках сильно отметился
-слово "Лебедева" Яндекс сейчас переколдовывает спецобразом для контента (не ссылок).
В ссылках на я.ру точного слова лебедев нет, да и ссылок со словом лебедева(у) всего 4,поэтому остается второй вариант: спецпереколдовка с процентом. Но точную переколдовку Яндекс сейчас не показывает. Вот только таким макаром и видим.
Если взять переколдованный запрос для оператора like то выдача похоже совпадает с выдачей по лайку, я проверил по like="www.yandex.ru":
http://www.yandex.ru/yandsearch?text=%28%FF%ED%E4%E5%EA%F1%3A%3A42465+%26%26+%EC%E0%F0%EA%E5%F2%3A%3A107268+%26%26+%E0%F4%E8%F8%E0%3A%3A17910+%26%26+%E7%E0%F0%E5%E3%E8%F1%F2%F0%E8%F0%EE%E2%E0%F2%FC%F1%FF%3A%3A6129+%26%26+wifi%3A%3A97227+%26%26+%EB%E5%E1%E5%E4%E5%E2%3A%3A95545+%26%26+00000000163%3A%3A38106+%26%26+00000000690%3A%3A111035+%26%26+advertise%3A%3A38641+%26%26+pda%3A%3A51611+%26%26+%E1%EB%EE%E3%3A%3A70075+%26%26+%EA%EE%F2%E8%F0%EE%E2%EA%E0%3A%3A68041%29%2F%2F40&stype=www
Надо обратить внимание, что мягкость там 40, а не 6. Т.е. кворум может быть очень низким. И если еще учесть множитель кворумный с корень_квадратный(число слов запроса-1), то лень считать, но это примерно 2-3 слова из 12 должно быть на похожих страницах (чтобы пройти отбор по похожести).
Бывают и другие истины. График отпусков Яндекса, Платон-Бэк отпуск отгулял, Платон-ТИЦ догуливает :)
Бальшой привет продолжается.
Вот сейчас по тем же почти запросам (см начало темы) ступеньки Миныча на этих числах:
запрос1
запрос2
т.е переходы в выдаче при изменении НА ЕДИНИЦУ веса запроса типа url="ghfhg.hv/bjjhh"
происходят при
ln(485165195)=20,0000000001859
ln(1318815734)=21,0000000000127
Или это эффект пессимизации? Так сказать огрубление дельты(дискреты) ВИЦА :)
Возможно очень, что и так. Просто мне кажется более общим подход непосредственного сравнения на похожесть.
Плюсы:
-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.
-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.
-Введение рубрикатора это введение испорченного телефона, удвоение цепи ошибок:
стр1-->>рубрикатор, стр2-->> рубрикатор - это ДВЕ операции, на которых возможны ошибки
стр1-->>стр2 , это ОДНА операция, на которой возможна ошибка.
Хотя реально не мы управляем Яндексом и он поступает так, как нам и не снится :)
Сразу видно, ссылка прямо по тематике нашего раздела нашего форума :)
Спасибо, itman :)
Возможно я неправильно выразился. Но мне лично при словах похожих "яндекс стал учитывать тематические ссылки" вначале на ум не классификатор приходит, а ПОХОЖЕСТЬ страниц донора и больного.
Кстати не вижу больших проблем введения классификатора, как расставляющего границы между похожими страницами, а вот для адекватного поиска похожих страниц проблем хоть отбавляй (это на мой взгляд).
Берем заданный документ, ищем похожие документы в Яндекс каталоге, упорядочиваем по "похожести", группируем по сайтам, и выдаем тематику первого в выдаче. Это если по топорному. Не по топорному тоже можно, если подумать
Например, по максимуму скалярного произведения на "тематические орты". Методов довольно много.