search spider

WE
На сайте с 28.06.2005
Offline
18
#71
eshum:
Маловато для чего? 5 000 000 000 * 25Kb(размер страницы) = ~120Gb html страниц в сутки. Вы можете построить индекс в 120Gb за 1 сутки на PC c стандартной конфигурацией?

Я имел в виду 5Мб.

120 Gb/день - 11 Мбит/с ... Т.е. вероятнее всего приводились данные для канала шириной в 10Мбит/с, если исходить из того, что цифра в 25кб более-менее верна. При этом речь шла не о построении индекса, а только о прохождении по ссылкам, их скачивании. Это вполне реально на компьютере стандартной конфигурации.

WE
На сайте с 28.06.2005
Offline
18
#72
Zute:
Вы забыли одну маленькую детальку: у DataparkSearch при этом ещё идёт индексирование, а у вас только выкачивание. Ну и естественно, при достаточно широком канале всё уприрается в скорость записи на винт.

Ну и если сравнивать dpsearch 4.22 и 4.31 (последнюю версию), то последняя по скорости раза в два быстрее (наглазок).

Не смотрели сколько времени тратится на индексирование?

Это занимает не так много времени, как кажется.

Z
На сайте с 03.01.2004
Offline
32
#73
lagif:
Zute, Ну, и у меня индексирует тоже... и что с того? На ширине канала 10Мбит и с количеством потоков - 60, еще неизвестно, кто будет индексировать быстрее... :)

У того, у кого винт шустрее писать будет :)

Z
На сайте с 03.01.2004
Offline
32
#74
W.Ed.:
Не смотрели сколько времени тратится на индексирование?
Это занимает не так много времени, как кажется.

Как не крути, эт всёравно больше, чем просто вытаскивать :p

A
На сайте с 02.10.2004
Offline
31
#75
Zute:
У того, у кого винт шустрее писать будет :)

Эээ, вообщето стандартный ATA винт может шуршать до 50 мб/сек, или 500 мегабит ... Все зависит то чем вы напрягете и как будете выкладывать на него. При том же железе например при дефрагментированном NTFS скорость может падать до 1-2 мб/сек. Я домашние видеозаписи монтирую сам , поэтому знаю как винты могут и писать и как захлебываться при вроде бы нормальных обстоятельсвах.

И непонятно что иелось ввиду под понятием индексирования, без конкретной структуры хранения обсуждение не имеет смысла. Крупные поисковики сменяют базы данных версиями , а не индексируют мнгновенно, такие как гугль я так подозреваю комбинируют технологию с хот дополнениями между версиями.

WE
На сайте с 28.06.2005
Offline
18
#76
Zute:
Как не крути, эт всёравно больше, чем просто вытаскивать :p

Хорошо ☝, завтра перепишу индексатор и сравним.🙄

A
На сайте с 02.10.2004
Offline
31
#77
W.Ed.:
Хорошо ☝, завтра перепишу индексатор и сравним.🙄

А качество поиска после такого индексирования ? Поисковик это не только циферки производительности.

lagif
На сайте с 15.12.2004
Offline
30
#78

Zute, Да, и у того, у кого алгоритм лучше. :)

Вообще, кроме стягивания, нужно учесть, что процессорное время и ресурсы вашей крутой тачки тратятся еще и на парсинг страниц и одновременное индексирование.

Ну и, разумеется, от скорости тупого ползанья по Сети качество самого поиска практически не зависит (разве что актуальность индекса).

Так что то, что мы здесь рассматриваем - только самая верхушка айсберга.

Это тоже пройдет...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий