Думаю, она довольно часто уточняется, изменяется и проч. Интернет изменчив - сегодня повился новый вид спама, завтра другой, со всем нужно бороться. Потом кто-то придумал зависимость, лучше описывающую распределение весов по страницам (PR) и все опять меняется. Получи вы формулу, не слишком она вам поможет, если вы уже знаете основные зависимости. Делайте для людей, и будет вам.
Все поисковики строятся на теории информационного поиска и ссылочном ранжировании, все остальное - вариации на эту тему, поэтому старый или новый это алгоритм, не очень существенно. Отличие - в детялях.
Тут все просто:
1) http://company.yandex.ru/articles/romip2004.xml
2) http://romip.ru/romip2006/03_yandex.pdf
Правда, ссылочное ранжирование в поиске по коллекции на использовалось, здесь додумывайте сами :))
Писать на e-mail.
А поиск по соответствующей ветке каталога не решит задачу? Или нужен именно ограниченный список сайтов? Не совсем понятно как ранжировать внутри этого списка.
Рамблер версии #1, а в чем смысл поста?
Поиск должен отрабатывать любой запрос за 1 секунду. В противном случае он не нужен. Никто не будет ждать результатов так долго.
Касательно метапоиска: например, http://www.metabot.ru/
Их было много в Рунете, не прижились. Был raya.ru - смесь Рамблера и Яндекса, много чего было.
99% современных поисковиков работает на связке tf*idf + ссылочное ранжирование. пока никто ничего нового не придумал. О чем говорится на РОМИП, ТРЕК, КЛЕФ и т.п. Наберите в любом поиске "теория информационного поиска" и узнаете что и как.
Это он в Тулбаре может так обновляться, а в базе, думаю, горраздо чаще, иначе бы качество ранжирования тут же бы упало. Пересчет ссылок нужен практически при каждом апдейте.
У меня выдает. Снял все галки, кроме yandex, результаты присутствуют
http://nigma.ru/index.php?q=%F2%E5%F1%F2&3=1
Касательно ранжирования выдачи: можно делать учетом сниппетов и заголовков. Вычислять по ним свою релевантность и делать смешанную выдачу. Еще можно учитывать вещи типа Яндекс ТИЦ, Google PR, но я бы, пожалуй, не решился, т.к. это поставит результаты остальных систем ниже указанных.