php-интерфейс есть у mnogosearch, вроде и у aspseek есть, но не родной (не от разработчика). Ктому же aspseek уже давно не развивается, впрочем, если вы быдете его саим поддерживать и развивать, то можно рассмотреть и его.
Использовать GPL-движки для создания тематических поисковиков можно, весь вопрос в количестве и размере индексируемых документов, около 1 млн. документов на одной машине вполне реально с не очень большим потоком поисковых запросов. С кластеризацией у всех эти поисковиков не очень.
1) - возможно
2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.
Ставите или mnogosearch или dataparksearch, определяете одно правило для просматриваемых серверов:
Realm HrefOnly *
В section.conf прописываете только дну секцию: url.file
Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.
В такой конфигурации оба поисковика будут бродить по инету, собирать все ссылки и индексировать только имена файлов (с расширениями). Ну а там ищите по этой инфе то, что хотите.
Nutch - поисковый движок open source, http://www.nutch.org/
Нет готовых потому, что либо это что-то супер новое, доселе никому не известное, либо это никому не нужно... По-моему, здесь случай номер два :)
Dataparksearch легче прикрутить к различным каталогам и CMS, он имеет возможносмть загружать аргументы для команд Realm/Server/URL из поля произвольной таблицы любой указаной базы данных. Плюс он пошестрее mnogosearch при использовании cache miode, особенно на больших поисковых базах. Но Dataparksearch не имеет интерфейса для PHP.
Ну за одну статью премии не дают :)
У неё есть еще: "Unsupervised Large-Vocabulary Word Sense Disambiguation with Graph-based Algorithm for Sequence Data Labeling". 🚬
А за что тогда Гугл премию Rada Mihalcea выдал ? :)
http://www.sitemeta.com/download/
Скачать версию под Виндовз вижу, ничего другого их перечисленного не вижу...
Да неужели ? Если поисковики выдают только Top N результатов, то ранжирование таки влияет на результаты поиска :)
И тем не менее, нейронные сети применяются MSN Search и DataparkSearch, правда для ранжирования, а не для классификации.