Бросьте, сила Google не в алгоритмах, а в бизнес-модели. Просто пока они не видят в подобных поисковых решениях экономической выгоды.
Нужно разделить весь текст документа на блоки и хранить в индексе для каждого слова координаты всех блоков, где оно встречается. Для более точного поиска кроме номеров документа и блока можно хранить и позицию слова в блоке, как это делается во всех современных полнотекстовых поисковиках - это поможет и при организации поиска со строгим соответствием, и при поиске со смещением, когда нужно найти термы, отстоящие на несколько слов друг от друга.
Нет, нахождение новых новостных ресурсов. На HITS там построено обновление самих сайтов, когда регулярно сканируются только хабы.
Да, имелся в виду Topic Distilation algorithm на основе HITS, который поможет найти тематические линки, к примеру, только с файловыми архивами. Дальше пойдет их сфокусированное сканирование.
Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.
Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.
Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по HITS.
Можно искать файлы прямо по файловым архивам, например, так (для .avi):
+avi -html -htm -cgi -asp -aspx -php -jsp -shtml "index of"
Вообще-то вопрос никак не относится к поисковым технологиям.
Вы в Google по filetype: искать не пробовали?
Значит неудовлетворительно работает при близких координатах искомых слов. Например, для запроса египетские технологии поисковик не находит документы с этой фразой, хотя они в индексе есть.
Похоже, что нет индекса цитируемости сайтов, поэтому так работает. Механически что-то ищет, но координатного индекса тоже нет. Кроме того, неудобоваримые сниппеты.
В общем, критиковать можно долго.