Модификация сrawler'a под себя. Готовые решения.

G

0

gkarr

23 августа 2006, 15:46

1501

Есть задача собрать из ру-нета страницы и документы рефератов или учебных материалов.

Периодически обходить подобные сайты на предмет появления новых материалов.

Время не критично. Главное - сбор подобного материала.

Веду поиск готовых решений, думаю, с возможностью модификации, заточкой.

Как я понимаю, моя задача сводится к написанию crawler'a с анализом контента страницы и дальнейшей качке документов (файлов или страницы).

Условия - OS Windows,язык не JAVA.

Хотелось бы еще отсеивать близкие по смыслу документы, но это в-последних.

PS Уже остановился на ASPSEEK, но узнаю, что он не собирается под Windows.

Посоветуйте, пожалуйста.:)

34

snoopckuu

23 августа 2006, 18:43

#1

gkarr, http://searchengines.o0o.ru/

http://72.14.221.104/search?q=cache:XFFmuB5Gk_4J:www.searchtools.com/tools/tools-opensource.html+open+source+search&hl=ru&gl=ru&ct=clnk&cd=1&client=firefox-a

кэш гугла так как сайт был в дауне, покрайне мере когда я писал этот пост.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)

G

0

gkarr

24 августа 2006, 09:03

#2

Благодарю :p

L

35

Leom

5 сентября 2006, 10:20

#3

http://www.searchinform.com/site/ru/index.htm

Сейчас запускается инет релиз с неплохим краулером, который в состоянии но обычном компе с нормальным каналом откачивать и индексировать порядка 100 гиг чистого текста в сутки (это реально полтерабайта инет инфы)

Правда решение не бесплатное. :)

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

10 сентября 2006, 12:12

#4

Leom:
(это реально полтерабайта инет инфы)

- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?

L

35

Leom

10 сентября 2006, 13:00

#5

!Иван FXS:
- 5 мегабайт в секунду, если я правильно поделил ... это Вы называете "обычный комп с нормальным каналом"?

Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг

А комп обычный pentium с памятью 2 гига и частотой проца 3.

Стоит конкретно в одном из Чикагских датасентров. Ну естественно сервак выделенный чисто наш.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

10 сентября 2006, 21:32

#6

Leom:
Стоит конкретно в одном из Чикагских датасентров.

- я бы не назвал это "обычный комп". "Обычный" для меня - это стоящий в московской квартире с выделенкой ...

M

65

Maxime

11 сентября 2006, 12:40

#7

Leom:
Ну реально не 5 а 2,5 в секунду это реально где-то 8 гиг в час. Но тут надо учитывать что ряд серверов уже отдает в сжатом виде и после записи htm в базу это уже будет где-то 14 гиг в час. Далее умножаем 20 (с погрешностями) на 14 и получаем около 300 гиг

Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)

L

35

Leom

19 сентября 2006, 07:07

#8

Maxime:
Т.е. речь идёт о простом выкачивании документов из Сети и записи их в базу в сажтом виде, и никакого разбиения на слова и построения обратного индекса на этом этапе не происходит ?

Eсть готовая статистика.

За 40 часов выкачано из сети около 4 млн страниц общим размером более 100 гиг. 11 миллионов в очереди еще, а вернее стоит на проверку, так как перед финальным занесением в очередь проверяется есть ли такой урл в базе

Все это проиндексировано (входит в эти же 40 часов) и можно искать не только полнотекстовым поиском и пользоватьс в том числе и поиском похожих. Все делалось на серваке в Чикаго. Характеристики сервака p4 3.0 Памяти 2 гига винт обычная 300-а.

Тестовый набор -- порядка 1500 сайтов (софт-каталоги).

На откачанной базе скорость поиска исходя из реалий инет (15% уникальных запросов) -- в среднем порядка 20000 запросов в час.

Сейчас идет очередной раунд оптимизации скоростей -- будет работать еще быстрей. Расчетные данные на 1 комп :

- 50 млн откачанных урлов

- около терабайта инфы (только htm соответственно)

Если кому то будет интересно думаю что оченб скоро сможем дать потестить на выделенном серваке под виндой.

Также уже сейчас мы обсуждаем ряд потенциальных заказов про созданию инет поисковиков, так как наша скорость позволит по нашим прикидкам проиндексить 30 тер инфы и около миллиарда страниц и отрабатывать порядка 1 мле запросов в час всего на 400-500 средненьких компах типа amd 2.6

Планируем запустить коробочное решение (кластеризуемое конечно) с условным названием " закажи свой инет поисковий у софтинформ "☝

Кстати кому интересно приглашаем на наш стэнд на софтуле -- номер H18

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Все что нужно знать о DDоS-атаках грамотному менеджеру