Zute

Рейтинг
32
Регистрация
03.01.2004

php-интерфейс есть у mnogosearch, вроде и у aspseek есть, но не родной (не от разработчика). Ктому же aspseek уже давно не развивается, впрочем, если вы быдете его саим поддерживать и развивать, то можно рассмотреть и его.

Использовать GPL-движки для создания тематических поисковиков можно, весь вопрос в количестве и размере индексируемых документов, около 1 млн. документов на одной машине вполне реально с не очень большим потоком поисковых запросов. С кластеризацией у всех эти поисковиков не очень.

1) - возможно

2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

Ставите или mnogosearch или dataparksearch, определяете одно правило для просматриваемых серверов:

Realm HrefOnly *

В section.conf прописываете только дну секцию: url.file

Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.

В такой конфигурации оба поисковика будут бродить по инету, собирать все ссылки и индексировать только имена файлов (с расширениями). Ну а там ищите по этой инфе то, что хотите.

Nutch - поисковый движок open source, http://www.nutch.org/

Нет готовых потому, что либо это что-то супер новое, доселе никому не известное, либо это никому не нужно... По-моему, здесь случай номер два :)

Dataparksearch легче прикрутить к различным каталогам и CMS, он имеет возможносмть загружать аргументы для команд Realm/Server/URL из поля произвольной таблицы любой указаной базы данных. Плюс он пошестрее mnogosearch при использовании cache miode, особенно на больших поисковых базах. Но Dataparksearch не имеет интерфейса для PHP.

Ну за одну статью премии не дают :)

У неё есть еще: "Unsupervised Large-Vocabulary Word Sense Disambiguation with Graph-based Algorithm for Sequence Data Labeling". 🚬

spark:

В этом случае имеет место "межъязыковая омонимия". Снимать омонимию автоматом пока никто не умеет, не только яндекс :)

А за что тогда Гугл премию Rada Mihalcea выдал ? :)

Keva:
Да-а-а? :) И давно? Вообще-то это полноценная кроссплатформенная штука. Win32, FreeBSD, Линух. А с минимально приложенными усилиями - и солярка на спарке.

http://www.sitemeta.com/download/

Скачать версию под Виндовз вижу, ничего другого их перечисленного не вижу...

lagif:
Zute, ранжирование и поиск - две принципиально разные задачи.

Да неужели ? Если поисковики выдают только Top N результатов, то ранжирование таки влияет на результаты поиска :)

lagif:

Собственно, для поиска документов нейросеть подойдет вряд ли, даже если
ей скармливать уже готовый индекс...

И тем не менее, нейронные сети применяются MSN Search и DataparkSearch, правда для ранжирования, а не для классификации.

Всего: 218