G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
overnight:
В том, что на Вашей картинке условия не выполняются.

Какое условие не выполняется?

Навигатор:
5-10 %

Т.е. 15К сапа-сайтов на все российские регионы? Не интересно, у Жени Трофименко их больше 100К, база бесплатна, хоть и немного старовата.

overnight:
Илья, а в этом примере ничего не напутано?

А в чем принципиальная разница?

invest:
с чего это не входит?
в 2004 или в 2006 году его назвали 7-м в списке ныне живущих гениев;) , хотя, конечно, в топ математиков он при этом может и не входить

Это мое личное мнение. В каком-нибудь рейтинге его могут и величайшим гением современности признать, почему нет. :)

gidronic:
Илья, скажи нам, как математик математикам, - чтобы успешно двигать при Матрикснете, надо ссылки по рублю брать, или все же стоит не жадничать и закупаться на трастовых площадках по рубь тридцать? :-))))))

Уверенно делит ссылки на кучки только wolf. Якобы правильно. Нам, сирым и недоверчивым, приходится миксовать, методом мудрого тыка. :D

Что вы так привязались к Перельману? Ну да, он гениальный математик, хотя по-жизни - долбанутый на всю голову. :D

Гениальных математиков в наше время не так и мало и Перельман по силе явно не входит в ТОП. Просто он сейчас знаменитее, вот и все. Последствия его доказательства никакие пока что. Для того, чтобы продуктивно применять методы Гриши нужно создавать школу, что для Перельмана не реально. Сам факт наличия доказательства в ближайшее время большого влияния на топологическую науку скорее всего не окажет. Пошумели, позавидовали немного и забили. :)

В доказательствах громких математических теорем, типа теоремы Ферма или этой гипотезы Пуанкаре есть и минусы. Это отличные стимулы для исследований, т.к. огромное количество сильных математиков пытается получить доказательство и в процессе получает кучу других замечательных результатов. Стимулов стало на один меньше, что не есть гуд, учитывая тот факт, что пользы-то особой от доказательства нет. :)

Dubovoj, не планируется, нет в этом необходимости. Если кто-то хочет сделать такой сервис - пусть делает, вся необходимая инфа есть в докладах Яндекса и в моих статьях. Этот доклад выложу, как только оформлю.

G00DMAN добавил 03.07.2010 в 22:36

Как и обещал, опубликовал доклад: Моделирование алгоритма текстового ранжирования Яндекса при помощи MatrixNet.

wolf:
Я так понимаю, спор об адекватности и точности.

Да спор бессмысленный. На конфе было доложено, то получена такая-то функция, которая в реале пока дает хорошие результаты. Но выборка реальных применений мала и больше не собирается становиться в ближайшем будущем. Так что я пока считаю данную функцию достаточно эффективной, но никому свое мнение не навязываю. Используемые для получения функции данные разжеваны. Есть желание - можно мои действия повторить. Все. :)

Понятно, что из данного факта совершенно не следует, что, если взять какую-то другую обучающую выборку и написать другой алгоритм обучения, то мы однозначно получим что-то эффективное на выходе. Можем и не получить. Но кто не копает - тот не выкапывает. :D

wolf:
Я, конечно, доклада Гудмана не слышал, но... нет не осуждаю :), а просто позволю себе отвлеченно заметить, что кроме текстовых и ссылочных есть еще вагон и маленькая тележка других факторов.

А кто с этим спорит? :)

wolf:
Да чего с ним сраться - всё равно отбрешется. Я с Сегаловичем коньяков не пью, мне такие аргументы крыть нечем :)

Ты думаешь, что без таких аргументов у мну шансов нет? Наивняк... :D

dimok:
насколько мала? сотни/тысячи/миллион запросов? чем больше, тем больше погрешность будет.

Вообще-то все как раз наоборот, чем больше хорошая обучающая выборка, тем больше шансов. :)

В моем случае обучалось на выборке примерно в 20К документов. Качество проверялось примерно на 2К документах, потом в реале на клиентских сайтах.

Собственно не понятно, а чем спор. Я заявил, что получил некую функцию, которая повышает текстовую релевантность документа запросу, пока с довольно большой вероятностью. И дал параметры, с помощью которых можно получить аналогичные функции. О чем спорить? У меня это работает, что вы пытаетесь доказать? :)

dimok:
ты сам признался, что работает только на запросах, где влияение ссылок ничтожно. равно как и других факторов, которые и я, и ты не можем видеть, находясь снаружи :)

Не, ты не понял, хотя уже ответили. Работать должно на всех запросах. Это задача-максимум. :)

dimok:
как я и сказал, в этом то основная проблема. невозможно, ИМХО, построить исследование без факторов, которые как минимум не последнее место в ранжировании занимают. даже если брать запросы, где в топе страницы, на которые не куплено в биржах ни одной ссылки. все равно ссылки, вес/возраст/т.п. домена там какое-то влияние да оказывает.

и я ровно об этом и написал. что как у меня тогда получились красивые цифры (плотность 7%, вхождения в тайтл 1.7 и т.д.), но это нифига не масштабируется. если я беру не те 100 запросов, на которых исследование делал, а другие 100 запросов, то все не так уж шоколадно.

точность "угадывания" позиций была 60-70% (если уже память не изменяет), что хорошо, но все равно не айс.

все это мое имхо.

Ну, исследование всегда провести возможно. Вопрос в эффективности его результатов. :D

Масштабируется или нет - проверяется тупо сначала на тестовой выборке, а потом практикой, другого пути нет.

В данном случае идеальный вариант - если в выдаче у всех вдруг отвалятся анкор-файлы, то выдача нашей функции совпадет с выдачей Яндекса на 100%. Это как бы максимум, который можно теоретически выжать из исследования такого типа. :)

Здесь конечно же есть спорная гипотеза. Она заключается в том, что мы считаем, что остальные факторы пары (запрос, документ) слабо влияют на текстовый вклад в релевантность. Т.е. текстовый вклад в релевантность в разных выдачах будет разным в абсолютном выражении, но он все же мало зависим от других. Гипотеза ни разу не очевидная, поэтому, опять же, проверяется только практикой. Т.е. если я подогнал текстовую релевантность на большом числе клиентских документов и в среднем получил явный плюс в позициях, значит метода слегка рулит. Если после подгонки все в окрестностях фифти-фифти, то либо нужно было лучше считать, либо метод дохлый изначально. :D

Пока выборка маловата, но на ней в среднем все гуд, хотя не 100%. Пару документов вытащить не удалось. На больших объемах клиентских сайтов я экспериментировать не буду (своих столько нет, с чужими нет желания делиться), так что с моей стороны серьезной статистики по эффективности не стоит ждать. Малая выборка говорит о том, что метод вполне рабочий. :)

Всего: 1960