Конечно же нет. Но там вполне сбалансированная база. :)
Скорее всего как-то по-другому все.
Я видел, хотя выборка у меня кислая и именно в этом направлении не анализировал, может и ошибся.
Мне Сегалович сказал позавчера, что да. Но Илья любит приколоться над оптимизаторами, так что все может быть... :)
Согласен на 100%.
Да. Я так же думаю, к тому же похоже, что оно "апдейтится" по-разному на разных регионах.
Конечно возможно написание программы, Вы сами можете такие программы писать. Значения IDF можете парсить у Райцина в тулзах, там далеко не полная база, зато по хорошей коллекции, для исследований с натяжкой покатит. :)
Дадут ли такие программы (при условии, что Вы верно определили критерии) ощутимые преимущества - не факт, в Арзамасе 1.2 вообще многое стало не очевидным. :)
Вопрос не корректный хотя бы потому, что не определено понятие "хорошего" ссылочного. Но, даже если его как-то определить, то не зная ранжирующего полинома ответить на вопрос было бы не просто даже теоретически. А практически - не возможно отранжировать два документа, не имея базы данных Яндекса.
Думаю не нужно тешить себя иллюзиями типа "я знаю 60 критериев". Некоторые критерии настолько неожиданны, что догадаться вообще не реально.
Среди критериев, до которых можно догадаться, но которые не активно обсуждаются на серче, теоретически могут быть например такие:
- абсолютная "важность" ключа в предложении (по IDF)
- относительная "важность" ключа в предложении
- вхождение ключа в опорную пару (в терминах доклада Яндекса на РОМИП-2008)
- расстояние между словами в опорной паре и близость опорной пары к началу предложения (даже если ключ не входит в пару)
- близость ключа к началу предложения
- количество предложений, в которых самое важное слово тяжелее ключа
и т.д. :)
Этот алгоритм не работает на Яндексе. Сейчас совсем другой алго, к тому же с сильно различными настройками по регионам и с добавкой из "испанского доклада" (хотя это может быть и деза :)).
Но алгоритм Ильи Сегаловича-2004 на самом деле сильный, например в этом году дорожку поиска на РОМИПе выиграл Сафронов из hh.ru с тюнингом именно этого алгоритма.
Доклады скоро будут выложены на сайте РОМИПа. Видео и аудио записей не было, фотки делал кто-то иногда.
Не, это не тот доклад, это Борис Добров из НИВЦ МГУ. От Яндекса молодые парни выступали.
А где выложены слайды?
Пдфки выложат на днях на сайте РОМИПа, в виде книжки я могу дать при случае. :)
Каждый текст без учета внешних оценивается по 69-ти факторам. :)
Имхо потому, что не копают глубоко в математику, а надо бы. В ранжировании давно уже все не просто, даже в текстовом. Все не просто во-первых математически, в формулах нет на разу прямого вхождения кол-ва ключа (ну, может быть кроме вхождений в тайтл). Хотя увеличение количества вхождений повышает релевантность по формуле, о чем я и писал. Во-вторых, кроме не простой математики, в ранжировании учитывается немеряно факторов, например на РОМИП-2009 Яндекс проводил текстовое ранжирование коллекции КМ.RU по 69 факторам (коллекцию WEB.BY они ранжировали с учетом ссылок внутри коллекции, считали PR - это добавило еще 96 факторов :D).