Модификация сrawler'a под себя. Готовые решения.

G
На сайте с 23.08.2006
Offline
0
1501

Есть задача собрать из ру-нета страницы и документы рефератов или учебных материалов.

Периодически обходить подобные сайты на предмет появления новых материалов.

Время не критично. Главное - сбор подобного материала.

Веду поиск готовых решений, думаю, с возможностью модификации, заточкой.

Как я понимаю, моя задача сводится к написанию crawler'a с анализом контента страницы и дальнейшей качке документов (файлов или страницы).

Условия - OS Windows,язык не JAVA.

Хотелось бы еще отсеивать близкие по смыслу документы, но это в-последних.

PS Уже остановился на ASPSEEK, но узнаю, что он не собирается под Windows.

Посоветуйте, пожалуйста.:)

snoopckuu
На сайте с 26.02.2006
Offline
34
#1

gkarr, http://searchengines.o0o.ru/

http://72.14.221.104/search?q=cache:XFFmuB5Gk_4J:www.searchtools.com/tools/tools-opensource.html+open+source+search&hl=ru&gl=ru&ct=clnk&cd=1&client=firefox-a

кэш гугла так как сайт был в дауне, покрайне мере когда я писал этот пост.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
G
На сайте с 23.08.2006
Offline
0
#2

Благодарю :p

L
На сайте с 02.05.2004
Offline
35
#3

http://www.searchinform.com/site/ru/index.htm

Сейчас запускается инет релиз с неплохим краулером, который в состоянии но обычном компе с нормальным каналом откачивать и индексировать порядка 100 гиг чистого текста в сутки (это реально полтерабайта инет инфы)

Правда решение не бесплатное. :)

Leo www.searchinform.ru (www.searchinform.ru)
!Иван FXS
На сайте с 16.11.2001
Offline
119
#4
Leom:
(это реально полтерабайта инет инфы)

- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?

L
На сайте с 02.05.2004
Offline
35
#5
!Иван FXS:
- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?

Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг

А комп обычный pentium с памятью 2 гига и частотой проца 3.

Стоит конкретно в одном из Чикагских датасентров. Ну естественно сервак выделенный чисто наш.

!Иван FXS
На сайте с 16.11.2001
Offline
119
#6
Leom:
Стоит конкретно в одном из Чикагских датасентров.

- я бы не назвал это "обычный комп". "Обычный" для меня - это стоящий в московской квартире с выделенкой ...

M
На сайте с 29.03.2003
Offline
65
#7
Leom:
Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг

Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
L
На сайте с 02.05.2004
Offline
35
#8
Maxime:
Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?

Eсть готовая статистика.

За 40 часов выкачано из сети около 4 млн страниц общим размером более 100 гиг. 11 миллионов в очереди еще, а вернее стоит на проверку, так как перед финальным занесением в очередь проверяется есть ли такой урл в базе

Все это проиндексировано (входит в эти же 40 часов) и можно искать не только полнотекстовым поиском и пользоватьс в том числе и поиском похожих. Все делалось на серваке в Чикаго. Характеристики сервака p4 3.0 Памяти 2 гига винт обычная 300-а.

Тестовый набор -- порядка 1500 сайтов (софт-каталоги).

На откачанной базе скорость поиска исходя из реалий инет (15% уникальных запросов) -- в среднем порядка 20000 запросов в час.

Сейчас идет очередной раунд оптимизации скоростей -- будет работать еще быстрей. Расчетные данные на 1 комп :

- 50 млн откачанных урлов

- около терабайта инфы (только htm соответственно)

Если кому то будет интересно думаю что оченб скоро сможем дать потестить на выделенном серваке под виндой.

Также уже сейчас мы обсуждаем ряд потенциальных заказов про созданию инет поисковиков, так как наша скорость позволит по нашим прикидкам проиндексить 30 тер инфы и около миллиарда страниц и отрабатывать порядка 1 мле запросов в час всего на 400-500 средненьких компах типа amd 2.6

Планируем запустить коробочное решение (кластеризуемое конечно) с условным названием " закажи свой инет поисковий у софтинформ "☝

Кстати кому интересно приглашаем на наш стэнд на софтуле -- номер H18

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий