Нечетко - не то слово для задачи "Хочу формулу" 😂
Не смог понять смысла этой фразы
Ну, здесь вопрос неоднозначный. В сборнике докладов первой ашмановской конференции 2002 г., к примеру, есть доклад Сегаловича, в котором сказано примерно следующее - учет количества релевантных запросу страниц сайта имеет место, но организован так, чтобы не давать многостраничным сайтам необоснованного преимущества.
А Вы хотите универсальную формулу релевантности сочинить? Для всех поисковиков сразу? 😂
Если Вы хотите заняться восстановлением формулы ранжирования для Яндекса, то оперировать Вы должны только теми данными, что есть в Яндексе. Никакие беки по Яху или гуглевский ПейджРанк тут не помощники.
Параметры надо не "из различных источников" собирать. А из базы конкретного поисковика.
Таки я грешным делом подумал, может, у господина преподавателя ученая степень имеется. :) Кстати, а кто аттестует преподавателей, ну, тех, которые без степеней и званий?
Любопытно. В хелпе Рамблера не нашел упоминаний директивы Host: http://help.rambler.ru/article.html?s=221&id=327
Главное, чтоб в формирование тестовой выборки не закралась системная ошибка. Иначе ее размер не будет иметь значения ;)
К сожалению, аналитически модель сейчас, похоже, не восстановить. Увы и ах. Во всяком случае, я не знаю как. А вот с численными методами надо быть очень осторожным. Ибо какой-нибудь неучитываемый фактор на отдельно взятой тестовой коллекции может привести к неверной интерпретации результатов.
У меня по старинке выходит, как и прежде.