W.Ed.

Рейтинг
18
Регистрация
28.06.2005
Должность
дизайн-студия
Интересы
программирование, лингвистика

lagif, если посчитать, то треть мегабита/сек.

я тестировал на одном компьютере, поэтому и хочу узнать какие-нибудь более реальные цифры. У меня просто около 30 сайтов с различной структурой находятся локально под апачем (один из них на более чем 20000 страницах). А отсутствие пауз в запросе-ответе компенсируется тем, что идет нагрузка на сам веб-сервер и подсовываются некоторые несуществующие адреса.

2 lagif, хотелось бы как-нибудь сравнить оптимальность работы наших краулеров...

Если у кого-то есть другие цифры, тоже хотелось бы посмотреть - для интереса, на что можно ориентироваться. (или я перебрал ?:))

Сейчас на четвертый раз переписал краулер....

av.speed(Gb):4.0/day;119.7/month (без индексатора, просто проход по ссылкам) - один скрипт (запускает необходимое количество сокетов)

цифры довольно приблизительны, и зависят по большому счету от ширины канала.

celeron 900, было задейстовано в среднем 60-70% от мощности процессора + 20 mb RAM

при сохранении сжималось gzip (не очень сильно)

зашейпить канал до 32К

lagif, насколько я понял, ограничение на пропускную способность канала делалось на уровне сервера, это так?

lagif:
хоть один процесс с множественными сокетами

php предоставляет набор функций для работы с массивом сокетов

lagif:
W.Ed., и, кстати, зачем спайдеру браузер? ошибки в лог записываются - и ресурсов это жрет ну совсем немного, если учесть, что используется при этом перенаправление стандартных потоков...

просто для отладки - удобнее читать лог по ходу выполнения

lagif:
W.Ed., Начнем с того, что я не нашла в PHP процедур типа setsockopt, и это меня расстроило. Во-вторых, ресурсов php жрет куда больше сишных бинарников... взять хотя бы тот факт, на чем php написан.
В-третьих, разумеется, я подсознательно защищаю свой метод :)

существует функция socket_set_option

(PHP 4 >= 4.3.0, PHP 5)

да, кстати, во время отладки большая часть ресурсов тратится на вывод ошибок :) (в браузере)

lagif:
W.Ed., Мой такую цифру съедает лениво за 1,5 суток (я угадаю эту мелодию с 2-х нот :) ).
Лениво - это если проставить глубину чтения где-то 3-го уровня, пустить 3 потока и зашейпить канал до 32К (иначе я всю локалку повешу).
Притом, что в сях гораздо проще настроить сокеты как хочется :) и многое-многое другое... :)

У меня ситуация пока хуже (тестирую у одного хостера), так что написанная мной цифра - это при минимальной загрузке процессора (пришлось ограничить расписанием по 20 доменов в 10 минут)

2 lagif:

какие именно настройки сокетов имелись в виду?

euhenio:
Народ, лучше скажите, где создателю поисковика брать бесплатный трафик (входящий) и железо. :)
А что, ведь реально есть наверное, хостинги крупные, у которых исходящего трафика избыток, и они могут входящим поделиться? :)

Оффтоп....

SLASH, я не исключаю вариента изобретения чего-то нового.

Но, цитирую: "не исключая изучения уже изобретенного".

В данной теме не рассматривается создание клонов и это не тема для дисскуссий о создании поисковиков. Это тема только для рассмотрения технологий.

МЕТА-поисковик, конечно, проще, но именно он и будет обречен на неудачу.

1 234
Всего: 38