Используйте GPL-движки для создания тематических поисковиков - Поисковые технологии

Поиск в Интернет файлов заданных расширений

goover · 2005-12-21T11:20:17.0000000Z

Уважаемые участники форума... Сталкивался ли ктонибудь с такой задачей? если есть знающие то может кто подскажет что можно почитать и поглядеть по этому вопросы? основной интерес представляет паук который будет ползать по вебу и искать такие фичи... кое какой материал есть, но очень поверхностно к сожалению.... :(

Z

32

Zute

21 декабря 2005, 16:34

#11

Ставите или mnogosearch или dataparksearch, определяете одно правило для просматриваемых серверов:

Realm HrefOnly *

В section.conf прописываете только дну секцию: url.file

Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.

В такой конфигурации оба поисковика будут бродить по инету, собирать все ссылки и индексировать только имена файлов (с расширениями). Ну а там ищите по этой инфе то, что хотите.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

21 декабря 2005, 17:00

#12

www.filesearch.ru

спасибо. посмотрел, но там только некоторые широкораспространенные форматы, не годится...

2Zute

огромное спасибо! ну должен же быть хоть один дельный ответ.

Вопрос Вам: что ставить. Читал много про mnogosch и dataparksch, вроде как по смыслу одно и тоже, люди говорили много хорошего про Aspsearch.

Я бы все таки хотел чтото связанное с PHP, наверное mnogo нужен... там есть extension. Слышал что он страшно глючный, не знаю, так или нет.

Скорость работы не интересует, важен сам процесс :)

Можно еще командами Disallow запретить файлы с заведомо неинтересными расширениями.

а указать интересующие расширения можно?

кстати заодно вопрос - можно ли этот GPL поисковик использовать для создания вообще тематического поисковика?

ну то есть:

1) указание интересующего пула тематических сайтов для индексации (ну например из некого каталога сайтов, который также есть в данной тематической поисковой системе). (полагаю это он должен уметь)

2) индексация только того материала, который входит в тематику. То есть имеется в виду некий частный случай автоклассификации текстов, когда мы просто принимаем решение - подходит страница по тематике или нет. Мы задаем некую обучающую выборку текстов по тематике, или например поисковик сам обучается на вручную отобранных из каталога сайтах. Алгоритмы принятия решения любые, хоть наивный баессовский фильтр.

3) более навороченный вариант - "focused crawling" (фокусное индексирование), когда паук ползет по тем ссылкам (или в первую очередь по тем), которые близки по тематике.

можно ли такие штуки выжать из данных продуктов?

и (если у кого есть опыт), то как?

что касается поиска по определенным файлам - то это один из нужных сервисов, который должен быть доступен.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Z

32

Zute

21 декабря 2005, 18:16

#13

php-интерфейс есть у mnogosearch, вроде и у aspseek есть, но не родной (не от разработчика). Ктому же aspseek уже давно не развивается, впрочем, если вы быдете его саим поддерживать и развивать, то можно рассмотреть и его.

Использовать GPL-движки для создания тематических поисковиков можно, весь вопрос в количестве и размере индексируемых документов, около 1 млн. документов на одной машине вполне реально с не очень большим потоком поисковых запросов. С кластеризацией у всех эти поисковиков не очень.

1) - возможно

2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

VT

130

Vyacheslav Tikhonov

21 декабря 2005, 22:43

#14

2) и 3) - автоматическое невозможно. Если вы вручную классифицируете сайты, то потом можно индексировать/переиндексировать каждый класс отдельно, ровно как и искать внутри только одного класса.

Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по HITS.

Z

32

Zute

21 декабря 2005, 23:47

#15

Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....

VT

130

Vyacheslav Tikhonov

21 декабря 2005, 23:53

#16

Читайте внимательно топик, речь шла только о возможностях mnogosearch, dpsearch и aspseek....

Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

G

10

goover

22 декабря 2005, 07:07

#17

Ну да, как это автоматически невозможно? Читайте основополагающие работы Клейнберга по Hits.

Вячеслав, поясните пожалуйста - что именно прочитать? насколько я знаю - Hits это рекурсивный алгоритм ссылочного ранжирования, который достаточно ресурсоемок и поэтому широкого применения в чистом виде не получил. У меня пока он не коррелируется с представлениями об автоклассификации.... что вы имели в виду?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

10

goover

22 декабря 2005, 07:09

#18

Насколько я знаю, это системы с открытым исходным кодом, поэтому в случае необходимости подобную функциональность можно добавить самому.

ценное замечание.... если есть возможность реализации, то это уже лучше чем ничего...

G

10

goover

22 декабря 2005, 07:12

#19

Читайте основополагающие работы Клейнберга по Hits.

вчитался еще раз в эту фразу... может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов...

VT

130

Vyacheslav Tikhonov

22 декабря 2005, 11:09

#20

может имелось в виду индексирование в первую очередь только "авторитетных" с точки зрения бОльших весов сайтов заданной тематики? или фокусное следование по ссылкам на/с авторитетных ресурсов

Да, имелся в виду Topic Distilation algorithm на основе HITS, который поможет найти тематические линки, к примеру, только с файловыми архивами. Дальше пойдет их сфокусированное сканирование.

Когда я разрабатывал систему сбора информации для Новотеки, я использовал подобный подход.

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Поиск в Интернет файлов заданных расширений