search spider

WE
На сайте с 28.06.2005
Offline
18
#61

хм...

4 Гбайт/день = 4*1024*1024*8 Кбит/день = 33554432 Кбит/день = 388,36(148) Кбит/с (может еще раз ошибся :)?)

проще все-таки в гигабайтах считать :)

lagif
На сайте с 15.12.2004
Offline
30
#62

388 Кбит != 0,33 Кбит

Это тоже пройдет...
WE
На сайте с 28.06.2005
Offline
18
#63
388 Кбит

я так понимаю, что у вас скорость чуть выше.... а 388 Кбит/с = 0,37890625 Мбит/с так что в первый раз я сказал правильно (про треть мегабита/сек) :)... мда.. не поспал ночку - уже и считать разучился..

Z
На сайте с 03.01.2004
Offline
32
#64

Сравните с dataparksearch, 260 килобайт/сек., вместе с индексированием:

http://www.dataparksearch.org/cgi-bin/simpleforum.cgi?fid=03&topic_id=1089195740

lagif
На сайте с 15.12.2004
Offline
30
#65

Ага, 60 потоков, на скорости 10мб.... :)

E
На сайте с 12.01.2004
Offline
17
#66

Есть еще такой open source проект Larbin. На их странице написано, о производительности в 5M индекируемых страниц в сутки.

Проект на мой взгляд достаточно интересный, вполне "читабельно" написан на С++, сокеты обрабатываются в poll, имеет собственный DNS резолвер, отдает статистику о своей работе прямо по http, и т.д.

WE
На сайте с 28.06.2005
Offline
18
#67
Zute:
Сравните с dataparksearch, 260 килобайт/сек., вместе с индексированием:

One anonymous DataparkSearch user made indexing speed test on 10Mb connection.

FreeBSD 5.1

Pentium IV 2.6GHz, 1G RAM
Two 76319MB <ST380011A> [155061/16/63] at ata2-master UDMA100 in RAID1

MySQL 4

DataparkSearch 4.22-01072004 with cache mode, cached runned in old mode

60 indexing threads were runned, every thread took 2-3 kbytes/s, thus overall indexing performace was about 120-180 kbytes/s
Totaly about 240000 pages in 6,6G were indexed.

Не сравнить с моим Celeron 900 256 RAM и обычными винтами... Datapark по-моему не использует канал полностью, для него более важна мощность сервера.

и другой тест...Total 3617 seconds, 28373 documents, 969663000 bytes, 261.80 Kbytes/sec - это ~21,5 Гб/день при минимальной ширине канала в 2.04 Мбит/с...

eshum:
На их странице написано, о производительности в 5M индекируемых страниц в сутки.

The current version of Larbin can fetch 5,000,000 pages a day

Это не 5М, 5млн страниц... 5 М в сутки это маловато :)

Z
На сайте с 03.01.2004
Offline
32
#68
W.Ed.:
Не сравнить с моим Celeron 900 256 RAM и обычными винтами... Datapark по-моему не использует канал полностью, для него более важна мощность сервера.

Вы забыли одну маленькую детальку: у DataparkSearch при этом ещё идёт индексирование, а у вас только выкачивание. Ну и естественно, при достаточно широком канале всё уприрается в скорость записи на винт.

Ну и если сравнивать dpsearch 4.22 и 4.31 (последнюю версию), то последняя по скорости раза в два быстрее (наглазок).

E
На сайте с 12.01.2004
Offline
17
#69
W.Ed.:
The current version of Larbin can fetch 5,000,000 pages a day
Это не 5М, 5млн страниц... 5 М в сутки это маловато :)

Маловато для чего? 5 000 000 000 * 25Kb(размер страницы) = ~120Gb html страниц в сутки. Вы можете построить индекс в 120Gb за 1 сутки на PC c стандартной конфигурацией?

lagif
На сайте с 15.12.2004
Offline
30
#70

Zute, Ну, и у меня индексирует тоже... и что с того? На ширине канала 10Мбит и с количеством потоков - 60, еще неизвестно, кто будет индексировать быстрее... :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий