lagif, если посчитать, то треть мегабита/сек.
я тестировал на одном компьютере, поэтому и хочу узнать какие-нибудь более реальные цифры. У меня просто около 30 сайтов с различной структурой находятся локально под апачем (один из них на более чем 20000 страницах). А отсутствие пауз в запросе-ответе компенсируется тем, что идет нагрузка на сам веб-сервер и подсовываются некоторые несуществующие адреса.
2 lagif, хотелось бы как-нибудь сравнить оптимальность работы наших краулеров...
Если у кого-то есть другие цифры, тоже хотелось бы посмотреть - для интереса, на что можно ориентироваться. (или я перебрал ?:))
Сейчас на четвертый раз переписал краулер....
av.speed(Gb):4.0/day;119.7/month (без индексатора, просто проход по ссылкам) - один скрипт (запускает необходимое количество сокетов)
цифры довольно приблизительны, и зависят по большому счету от ширины канала.
celeron 900, было задейстовано в среднем 60-70% от мощности процессора + 20 mb RAM
при сохранении сжималось gzip (не очень сильно)
зашейпить канал до 32К
lagif, насколько я понял, ограничение на пропускную способность канала делалось на уровне сервера, это так?
php предоставляет набор функций для работы с массивом сокетов
просто для отладки - удобнее читать лог по ходу выполнения
существует функция socket_set_option
(PHP 4 >= 4.3.0, PHP 5)
да, кстати, во время отладки большая часть ресурсов тратится на вывод ошибок :) (в браузере)
У меня ситуация пока хуже (тестирую у одного хостера), так что написанная мной цифра - это при минимальной загрузке процессора (пришлось ограничить расписанием по 20 доменов в 10 минут)
2 lagif:
какие именно настройки сокетов имелись в виду?
Оффтоп....
SLASH, я не исключаю вариента изобретения чего-то нового.
Но, цитирую: "не исключая изучения уже изобретенного".
В данной теме не рассматривается создание клонов и это не тема для дисскуссий о создании поисковиков. Это тема только для рассмотрения технологий.
МЕТА-поисковик, конечно, проще, но именно он и будет обречен на неудачу.