Поиск в Интернет файлов заданных расширений

123
Z
На сайте с 03.01.2004
Offline
32
#11

Ставите или mnogosearch или dataparksearch, определяете одно правило для просматриваемых серверов:

Realm HrefOnly *

В section.conf прописываете только дну секцию: url.file

Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.

В такой конфигурации оба поисковика будут бродить по инету, собирать все ссылки и индексировать только имена файлов (с расширениями). Ну а там ищите по этой инфе то, что хотите.

G
На сайте с 26.09.2005
Offline
10
#12

спасибо. посмотрел, но там только некоторые широкораспространенные форматы, не годится...

2Zute

огромное спасибо! ну должен же быть хоть один дельный ответ.

Вопрос Вам: что ставить. Читал много про mnogosch и dataparksch, вроде как по смыслу одно и тоже, люди говорили много хорошего про Aspsearch.

Я бы все таки хотел чтото связанное с PHP, наверное mnogo нужен... там есть extension. Слышал что он страшно глючный, не знаю, так или нет.

Скорость работы не интересует, важен сам процесс :)

Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.

а указать интересующие расширения можно?

кстати заодно вопрос - можно ли этот GPL поисковик использовать для создания вообще тематического поисковика?

ну то есть:

1) указание интересующего пула тематических сайтов для индексации (ну например из некого каталога сайтов, который также есть в данной тематической поисковой системе). (полагаю это он должен уметь)

2) индексация только того материала, который входит в тематику. То есть имеется в виду некий частный случай автоклассификации текстов, когда мы просто принимаем решение - подходит страница по тематике или нет. Мы задаем некую обучающую выборку текстов по тематике, или например поисковик сам обучается на вручную отобранных из каталога сайтах. Алгоритмы принятия решения любые, хоть наивный баессовский фильтр.

3) более навороченный вариант - "focused crawling" (фокусное индексирование), когда паук ползет по тем ссылкам (или в первую очередь по тем), которые близки по тематике.

можно ли такие штуки выжать из данных продуктов?

и (если у кого есть опыт), то как?

что касается поиска по определенным файлам - то это один из нужных сервисов, который должен быть доступен.

Z
На сайте с 03.01.2004
Offline
32
#13

php-интерфейс есть у mnogosearch, вроде и у aspseek есть, но не родной (не от разработчика). Ктому же aspseek уже давно не развивается, впрочем, если вы быдете его саим поддерживать и развивать, то можно рассмотреть и его.

Использовать GPL-движки для создания тематических поисковиков можно, весь вопрос в количестве и размере индексируемых документов, около 1 млн. документов на одной машине вполне реально с не очень большим потоком поисковых запросов. С кластеризацией у всех эти поисковиков не очень.

1) - возможно

2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

VT
На сайте с 27.01.2001
Offline
130
#14
2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по HITS.

Z
На сайте с 03.01.2004
Offline
32
#15

Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....

VT
На сайте с 27.01.2001
Offline
130
#16
Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....

Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

G
На сайте с 26.09.2005
Offline
10
#17
Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по Hits.

Вячеслав, поясните пожалуйста - что именно прочитать? насколько я знаю - Hits это рекурсивный алгоритм ссылочного ранжирования, который достаточно ресурсоемок и поэтому широкого применения в чистом виде не получил. У меня пока он не коррелируется с представлениями об автоклассификации.... что вы имели в виду?

G
На сайте с 26.09.2005
Offline
10
#18
Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

ценное замечание.... если есть возможность реализации, то это уже лучше чем ничего...

G
На сайте с 26.09.2005
Offline
10
#19
Читайте основополагающие работы Клейнберга по Hits.

вчитался еще раз в эту фразу... может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов...

VT
На сайте с 27.01.2001
Offline
130
#20
может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов

Да, имелся в виду Topic Distilation algorithm на основе HITS, который поможет найти тематические линки, к примеру, только с файловыми архивами. Дальше пойдет их сфокусированное сканирование.

Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий