Dryoma

Dryoma
Рейтинг
12
Регистрация
24.12.2007
The WishMaster:
Можно конкретные примеры его ошибок?

Читал давно, так что кое чего из того что понял уже забыл. Если коротко, то:

Уравнения Брина и Пейджа хорошие. Хорошие в том смысле, что не взяты с потолка. Например, при 0<d<1 они имеют единственное решение, причем без отрицательных PageRankов. Вообще говоря это случается не со всеми линейными уравнениями. Более того, PageRankи удовлетворяющие этим уравнениям имеют небольшие значения --- порядка кол-ва ссылок на сайт.

Садовский предлагает неправильную итеррационную схему для нахождения решения этой системы уравнений. Если сисетму уравнений Пейджа-Брина записать (дальше будет много букаф)

x= A x + b, (1)

где x - столбец PR всех сайтов, b - столбец из (1-d), A --- все остальное, т е матрица коэффициентов типа d/n, где n-кол-во ссылок, то итеррационная схема Садовского выглядит так:

(КАК НЕПРАВИЛЬНО)

x0 = 1 (столбец единиц) --- нулевое приближение,

x1 = (A+E) x0 = A+E --- первое приближение (тут E --- единичная),

x2 = (A+E) x1 = (A+E)^2 --- второе приближение (^ это возведение в степень), продолжая дальше, имеем

xi = (A+E)^i. (2)

У нас A --- малая матрица. Под этим я понимаю что, A^i стремится к нулю при i стремится к бесконечности. Последний факт следует из того, что сумма элементов матрицы A в каждом столбце равна d<1. Тогда (A+E) --- матрица, чуть большая единичной (при возведении в степень стремится к бесконечности). Соответсвенно, при стремлении i к бесконечности решение (2) неограниченно растет. Поэтому, эта итеррационная схема не то что не сходится к ответу --- она вообще не сходится.

(КАК ПРАВИЛЬНО:)

x0 --- любое (в этом и достоинство большинства итеррационных схем --- они не зависят от начального приближнния)

x1 = A x0 + b

x2= A x1 + b = A (A x0 + b) + b = A^2 x0 + (E + A) b,

x3 = A x2 + b = A^3 x0 + (E + A + A^2) b, и т д. В конце концов получим

xi = A^i x0 + (E + A + A^2 + ... + A^(i-1)) b

При стремлении i к бесконечности, из-за малости A первое слагаемое стремится к 0 (тут теряется зависимость от начального приближения). А скобка в свою очередь стремится к 1/(E-A). Итого, вторая итерационная схема дает решение

x = b/(E-A).

Прямой подстановкой можно убедиться, что это --- решение уравнения (1).

Таким образом, предложенный Садовским MiniRank не решает задачу о нахождении PageRankа. На основании неправильной итеррационной схемы Садовский делает выводы о огромных значениях PageRanka, хотя во всех предложенных ситуациях он порядка 0-10. Хотя, некоторые выводы он делает правильные, например, об эффекте обратной связи. Но, как говорят в таких случаях: "Все персонажи - выдуманы. Всякое сходство с реальными лицами или фактами - кажущееся, любые совпадения - случайны, аналогии - неуместны.."

Пожалуй, хватит 😆.

Adamovitch:
если подробно то почитай вот статью Александра Садовского про PageRank
http://digits.ru/articles/promotion/pagerank.html

Читал эту статью. Садовский с математикой явно не дружил. Надеюсь, все изменилось.

di_max:
Кхм... Не ужели вы считаете, что все опубликованное Яндексом точ-в-точь истользуется в РАБОЧИХ алгоритмах?;)
Есди нет - то какова, по Вашему, степень приближения к реальности?

То что они выкладывают на РОМИПах не все работает, но они ничего и не утверждают. Там выкладывают или недоделанные наработки на будущее или, наоборот, дела минувших дней.

А то что они выкладывают в помощи как правило настолько размывчато, что тяжело проверить. Я вранья там никогда не находил (а кто-нибудь находил?), так что считаю, что той скудной информации что они дают можно верить. Яндексу приходится говорить немного правды, иначе пользователи не поверят, что Яндекс хороший 🚬.

murvuz:
Даааа, ребята. Моя твоя не понимать.
Я надеюсь выкладки из эксперимента будут делаться на человеческом языке ;)

Согласен, мы немного отвлеклись:)

wolf:
Даже во времена Миныча совсем необязательно было знать IDF. :) Достаточно было просто манипулировать этим параметром с помощью чудесного оператора ::, который сейчас, увы, не столь чудесен.

Чтобы провести его эксперименты действительно не надо было знать настоящий IDF (кста, тут есть какая-то непонятка, связанная с тем, что IDFом называют не обратную частоту вхождений в коллекцию, а логарифм этой величины. Имхо было бы логично IDFом называть то, что вбивалось через :: (насколько я поинмаю, это и было что-то вроде обратной частоты вхождений), а weight=Ln(IDF) назвать весом и тогда старая ф-ла имела бы вид TF*weight) слов.

Формулу TF*IDF предложили в этой теме для того чтобы оценивать насколько страница про данное слово. В этом случае достаточно знать IDF существующих слов.

Information Retrieval это не функциональный анализ, не дифгеометрия и не квантовая теория поля. Чтобы сделать открытие в IR не надо 20 лет учиться, можно просто поменять пару коэффициентов или функций и посмотреть насколько поиск станет более или менее релевантным, более того, это достижение трудно будет назвать открытием (или революцией:D). Так что тот факт, что по сравнению c Ln значительно уменьшился вес частотных слов мне не кажется неправдоподобным.

sokol_jack:
И сразу примеры, почему не работает, если не сложно.

Скажем, это результат моих экспериментов, которые я пока не собираюсь раскрывать. Вам от них пользы мало будет, так как вы вряд ли знаете как узнать IDF😎 Мне самому от них пользы пока мало. Со времен Миныча и ХРНС все усложнилось:(

На счет ваших примеров --- может вы и правы. У первых двух сайтов действительно общая широкая тематика. Но лично я, если на информационном сайте читаю про какое-то слово, то хочу по ссылке прочитать еще что нибудь про это слово и в этом случае я бы не посчитал, что эти сайты на одну тему. А если я на коммерческом сайте, то вряд ли там среди наиболее частотных слов не будет "купить", "путевка", "база", "отдых". В любом случае не важно что думаем мы с вами, важно как оценивает тематику Яндекс.

D_Search:
а ещё лучше думаю по tf*idf. наверное, там контрастность всё-таки считают :)

эта формула уже не работает.

Найдите самые частотные из не стоп-слов, допустим первые пять. Если в таких списках три пересечения, то ссылку можно считать тематической. Параметры три и пять из головы. Можно еще анализировать текст анкора.

2 Константинович, дайте пожалуйста ссылку на статью от Яндекса, которую вы цитировали.

Из того что вы процитировали вообще говоря следует, что ТИЦ донора самым непосредственным образом влияет на ВИЦ акцептора, а ВИЦ является "количественным показателем популярности сайта", что по всей видимости значит, что ВИЦ --- один из ключевых параметров, определяющих релевантность и, соответственно, позицию в выдаче. Это противоречит распостраненному мнению, что ТИЦ на выдачу не влияет. У меня у самого пока очень мало опыта чтобы что-то уверенно утверждать, но я разберусь)).

Всего: 58