Читал давно, так что кое чего из того что понял уже забыл. Если коротко, то:
Уравнения Брина и Пейджа хорошие. Хорошие в том смысле, что не взяты с потолка. Например, при 0<d<1 они имеют единственное решение, причем без отрицательных PageRankов. Вообще говоря это случается не со всеми линейными уравнениями. Более того, PageRankи удовлетворяющие этим уравнениям имеют небольшие значения --- порядка кол-ва ссылок на сайт.
Садовский предлагает неправильную итеррационную схему для нахождения решения этой системы уравнений. Если сисетму уравнений Пейджа-Брина записать (дальше будет много букаф)
x= A x + b, (1)
где x - столбец PR всех сайтов, b - столбец из (1-d), A --- все остальное, т е матрица коэффициентов типа d/n, где n-кол-во ссылок, то итеррационная схема Садовского выглядит так:
(КАК НЕПРАВИЛЬНО)
x0 = 1 (столбец единиц) --- нулевое приближение,
x1 = (A+E) x0 = A+E --- первое приближение (тут E --- единичная),
x2 = (A+E) x1 = (A+E)^2 --- второе приближение (^ это возведение в степень), продолжая дальше, имеем
xi = (A+E)^i. (2)
У нас A --- малая матрица. Под этим я понимаю что, A^i стремится к нулю при i стремится к бесконечности. Последний факт следует из того, что сумма элементов матрицы A в каждом столбце равна d<1. Тогда (A+E) --- матрица, чуть большая единичной (при возведении в степень стремится к бесконечности). Соответсвенно, при стремлении i к бесконечности решение (2) неограниченно растет. Поэтому, эта итеррационная схема не то что не сходится к ответу --- она вообще не сходится.
(КАК ПРАВИЛЬНО:)
x0 --- любое (в этом и достоинство большинства итеррационных схем --- они не зависят от начального приближнния)
x1 = A x0 + b
x2= A x1 + b = A (A x0 + b) + b = A^2 x0 + (E + A) b,
x3 = A x2 + b = A^3 x0 + (E + A + A^2) b, и т д. В конце концов получим
xi = A^i x0 + (E + A + A^2 + ... + A^(i-1)) b
При стремлении i к бесконечности, из-за малости A первое слагаемое стремится к 0 (тут теряется зависимость от начального приближения). А скобка в свою очередь стремится к 1/(E-A). Итого, вторая итерационная схема дает решение
x = b/(E-A).
Прямой подстановкой можно убедиться, что это --- решение уравнения (1).
Таким образом, предложенный Садовским MiniRank не решает задачу о нахождении PageRankа. На основании неправильной итеррационной схемы Садовский делает выводы о огромных значениях PageRanka, хотя во всех предложенных ситуациях он порядка 0-10. Хотя, некоторые выводы он делает правильные, например, об эффекте обратной связи. Но, как говорят в таких случаях: "Все персонажи - выдуманы. Всякое сходство с реальными лицами или фактами - кажущееся, любые совпадения - случайны, аналогии - неуместны.."
Пожалуй, хватит 😆.
Читал эту статью. Садовский с математикой явно не дружил. Надеюсь, все изменилось.
То что они выкладывают на РОМИПах не все работает, но они ничего и не утверждают. Там выкладывают или недоделанные наработки на будущее или, наоборот, дела минувших дней.
А то что они выкладывают в помощи как правило настолько размывчато, что тяжело проверить. Я вранья там никогда не находил (а кто-нибудь находил?), так что считаю, что той скудной информации что они дают можно верить. Яндексу приходится говорить немного правды, иначе пользователи не поверят, что Яндекс хороший 🚬.
Согласен, мы немного отвлеклись:)
Чтобы провести его эксперименты действительно не надо было знать настоящий IDF (кста, тут есть какая-то непонятка, связанная с тем, что IDFом называют не обратную частоту вхождений в коллекцию, а логарифм этой величины. Имхо было бы логично IDFом называть то, что вбивалось через :: (насколько я поинмаю, это и было что-то вроде обратной частоты вхождений), а weight=Ln(IDF) назвать весом и тогда старая ф-ла имела бы вид TF*weight) слов.
Формулу TF*IDF предложили в этой теме для того чтобы оценивать насколько страница про данное слово. В этом случае достаточно знать IDF существующих слов.
Information Retrieval это не функциональный анализ, не дифгеометрия и не квантовая теория поля. Чтобы сделать открытие в IR не надо 20 лет учиться, можно просто поменять пару коэффициентов или функций и посмотреть насколько поиск станет более или менее релевантным, более того, это достижение трудно будет назвать открытием (или революцией:D). Так что тот факт, что по сравнению c Ln значительно уменьшился вес частотных слов мне не кажется неправдоподобным.
Скажем, это результат моих экспериментов, которые я пока не собираюсь раскрывать. Вам от них пользы мало будет, так как вы вряд ли знаете как узнать IDF😎 Мне самому от них пользы пока мало. Со времен Миныча и ХРНС все усложнилось:(
На счет ваших примеров --- может вы и правы. У первых двух сайтов действительно общая широкая тематика. Но лично я, если на информационном сайте читаю про какое-то слово, то хочу по ссылке прочитать еще что нибудь про это слово и в этом случае я бы не посчитал, что эти сайты на одну тему. А если я на коммерческом сайте, то вряд ли там среди наиболее частотных слов не будет "купить", "путевка", "база", "отдых". В любом случае не важно что думаем мы с вами, важно как оценивает тематику Яндекс.
эта формула уже не работает.
Найдите самые частотные из не стоп-слов, допустим первые пять. Если в таких списках три пересечения, то ссылку можно считать тематической. Параметры три и пять из головы. Можно еще анализировать текст анкора.
2 Константинович, дайте пожалуйста ссылку на статью от Яндекса, которую вы цитировали.
Из того что вы процитировали вообще говоря следует, что ТИЦ донора самым непосредственным образом влияет на ВИЦ акцептора, а ВИЦ является "количественным показателем популярности сайта", что по всей видимости значит, что ВИЦ --- один из ключевых параметров, определяющих релевантность и, соответственно, позицию в выдаче. Это противоречит распостраненному мнению, что ТИЦ на выдачу не влияет. У меня у самого пока очень мало опыта чтобы что-то уверенно утверждать, но я разберусь)).