Как Федор отметил в начале своего выступления, человек мыслит моделями. Научный метод заключается в том, что теории и модели создаются на основе эмпирического знания. При этом модель нужно воспринимать с точки зрения ее полезности.
Разработка поиска и анализ данных — тоже своего рода научная работа из области выявления высокоуровневых закономерностей. У поисковой системы есть огромные массивы данных, логи действий пользователей, на основе которых можно составлять модели, предсказывать действия, и, опираясь на это, делать различные полезные сервисы. Причем, в поиске новые модели можно придумывать достаточно часто, и каждая из них будет в чем-то полезна.
В частности, был приведен пример модели PageRank, алгоритм которой придуман в компании Google. Принцип работы этого алгоритма заключается в следующем: чем больше ссылаются на ту или иную работу, тем более авторитетной она считается в научном мире.
Задача поисковой системы — посчитать некую авторитетность страницы, определить, какова вероятность того, что она хоть сколько-нибудь интереса и полезна. На основе этого показателя отбираются страницы для поисковой выдачи и в дальнейшем сортируются на странице результатов поиска.
Однако, несмотря на всю практическую пользу данной модели, у нее есть и недостатки. Если раньше страниц в интернете было не так много, а все ссылки проставлялись вручную, то сейчас не составляет труда сгенерировать спам-сайт с множеством страниц, ссылающихся на необходимые документы. К примеру, в настоящий момент в базе Яндекса по Рунету насчитывается около 20 млрд. страниц, среди которых полезных – не так много.