Какое условие не выполняется?
Т.е. 15К сапа-сайтов на все российские регионы? Не интересно, у Жени Трофименко их больше 100К, база бесплатна, хоть и немного старовата.
А в чем принципиальная разница?
Это мое личное мнение. В каком-нибудь рейтинге его могут и величайшим гением современности признать, почему нет. :)
Уверенно делит ссылки на кучки только wolf. Якобы правильно. Нам, сирым и недоверчивым, приходится миксовать, методом мудрого тыка. :D
Что вы так привязались к Перельману? Ну да, он гениальный математик, хотя по-жизни - долбанутый на всю голову. :D
Гениальных математиков в наше время не так и мало и Перельман по силе явно не входит в ТОП. Просто он сейчас знаменитее, вот и все. Последствия его доказательства никакие пока что. Для того, чтобы продуктивно применять методы Гриши нужно создавать школу, что для Перельмана не реально. Сам факт наличия доказательства в ближайшее время большого влияния на топологическую науку скорее всего не окажет. Пошумели, позавидовали немного и забили. :)
В доказательствах громких математических теорем, типа теоремы Ферма или этой гипотезы Пуанкаре есть и минусы. Это отличные стимулы для исследований, т.к. огромное количество сильных математиков пытается получить доказательство и в процессе получает кучу других замечательных результатов. Стимулов стало на один меньше, что не есть гуд, учитывая тот факт, что пользы-то особой от доказательства нет. :)
Dubovoj, не планируется, нет в этом необходимости. Если кто-то хочет сделать такой сервис - пусть делает, вся необходимая инфа есть в докладах Яндекса и в моих статьях. Этот доклад выложу, как только оформлю.
G00DMAN добавил 03.07.2010 в 22:36
Как и обещал, опубликовал доклад: Моделирование алгоритма текстового ранжирования Яндекса при помощи MatrixNet.
Да спор бессмысленный. На конфе было доложено, то получена такая-то функция, которая в реале пока дает хорошие результаты. Но выборка реальных применений мала и больше не собирается становиться в ближайшем будущем. Так что я пока считаю данную функцию достаточно эффективной, но никому свое мнение не навязываю. Используемые для получения функции данные разжеваны. Есть желание - можно мои действия повторить. Все. :)
Понятно, что из данного факта совершенно не следует, что, если взять какую-то другую обучающую выборку и написать другой алгоритм обучения, то мы однозначно получим что-то эффективное на выходе. Можем и не получить. Но кто не копает - тот не выкапывает. :D
А кто с этим спорит? :)
Ты думаешь, что без таких аргументов у мну шансов нет? Наивняк... :D
Вообще-то все как раз наоборот, чем больше хорошая обучающая выборка, тем больше шансов. :)
В моем случае обучалось на выборке примерно в 20К документов. Качество проверялось примерно на 2К документах, потом в реале на клиентских сайтах.
Собственно не понятно, а чем спор. Я заявил, что получил некую функцию, которая повышает текстовую релевантность документа запросу, пока с довольно большой вероятностью. И дал параметры, с помощью которых можно получить аналогичные функции. О чем спорить? У меня это работает, что вы пытаетесь доказать? :)
Не, ты не понял, хотя уже ответили. Работать должно на всех запросах. Это задача-максимум. :)
Ну, исследование всегда провести возможно. Вопрос в эффективности его результатов. :D
Масштабируется или нет - проверяется тупо сначала на тестовой выборке, а потом практикой, другого пути нет.
В данном случае идеальный вариант - если в выдаче у всех вдруг отвалятся анкор-файлы, то выдача нашей функции совпадет с выдачей Яндекса на 100%. Это как бы максимум, который можно теоретически выжать из исследования такого типа. :)
Здесь конечно же есть спорная гипотеза. Она заключается в том, что мы считаем, что остальные факторы пары (запрос, документ) слабо влияют на текстовый вклад в релевантность. Т.е. текстовый вклад в релевантность в разных выдачах будет разным в абсолютном выражении, но он все же мало зависим от других. Гипотеза ни разу не очевидная, поэтому, опять же, проверяется только практикой. Т.е. если я подогнал текстовую релевантность на большом числе клиентских документов и в среднем получил явный плюс в позициях, значит метода слегка рулит. Если после подгонки все в окрестностях фифти-фифти, то либо нужно было лучше считать, либо метод дохлый изначально. :D
Пока выборка маловата, но на ней в среднем все гуд, хотя не 100%. Пару документов вытащить не удалось. На больших объемах клиентских сайтов я экспериментировать не буду (своих столько нет, с чужими нет желания делиться), так что с моей стороны серьезной статистики по эффективности не стоит ждать. Малая выборка говорит о том, что метод вполне рабочий. :)