Не могу сказать, сколько миллионов ссылок мы выгрибаем в сутки.... может быть больше миллиарда... сколько iframe мы анализируем на предмет распространения badware и т.д... все это только к новому году будет рефакторится на сишке.. пехапе для .ру хватает под все наши задачи и это очень дешево... а отлаженную задачу отрефакторить на си еще дешевле
Да, программеров гоните.... Слава правильно написал... только в шею или в задницу надо еще опредилится, т.к. результат уж слишком впечатляющий.
ps. При эффективном решении задачи все упирается в канал и дисковое IO.
Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.
ps. Стоит задуматься о решении в целом и не кидать камни в сторону пехапе... для такой задачи это дешево и эффективно.
500 часов на 500тыс документах получается - РОВНО... цифра надуманная, IMHO
ps. В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.
ну мы же на пехапе харвестим более 700тыс документов в сутки, индексируем, анализируем, обрабатываем, отслеживаем изменения... цена вопроса 14 часов машинного времени... когда будет 20, то мы отрефакторим на Си.
Если админ её не сможет поставить, то можете к нашим обратиться. Решение достаточно тяжело в установке, но в эксплуатации не одну уже СОТНЮ ТЫСЯЧ тикетов обработали. Система open source, написано на perl. Код для сведующих достаточно прозрачен, дорабатывать легко.
там есть русский язык и все сопутствующее... единственное, что надо руссифицировать, так это ответы автореспондилки - "Это автоматический ответ на Ваше сообщение N..." и т.д... вебинтерфейс там на всех языках, а к почте как-то ничего и не надо прикручивать. Если настроить триггеры, то тикеты можно закрывать/передавать прямо из почты - уже забыл когда на веб последний раз лазал.
Под неё есть диаграммы Ганта вроде готовые уже, что просто незаменимо было бы... если бы они столько денег не стоили.
а я вот не считаю его желание ошибкой, т.к. по условиям задачи объем индексируемых страниц, скорость идексации и т.д. совсем не оговаривается... другое дело скорость разработки... вот тут она выше и дешевле.
в надежде шо скоро появится вменяемый пехапе компилятор.
Кстати если за php паука поговорить, то в non blocked тыщ 6 сокетов нормально тянет... правда select там иногда глючит, но это отслеживается. Если по 300 сокетов расфоркать на 20 процессов, то по мегабитам прилично там ссасывает... до 400 мегабит наман сливает... смысла лить быстрее нет, т.к. надо еще и записывать это куда-то.