kostich

Рейтинг
223
Регистрация
24.03.2004
Слава Шевцов:
Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.

Не могу сказать, сколько миллионов ссылок мы выгрибаем в сутки.... может быть больше миллиарда... сколько iframe мы анализируем на предмет распространения badware и т.д... все это только к новому году будет рефакторится на сишке.. пехапе для .ру хватает под все наши задачи и это очень дешево... а отлаженную задачу отрефакторить на си еще дешевле

di_max:
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.

Да, программеров гоните.... Слава правильно написал... только в шею или в задницу надо еще опредилится, т.к. результат уж слишком впечатляющий.

ps. При эффективном решении задачи все упирается в канал и дисковое IO.

Слава Шевцов:
Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.

Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.

ps. Стоит задуматься о решении в целом и не кидать камни в сторону пехапе... для такой задачи это дешево и эффективно.

di_max:
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.
Но не на ПХП естественно.;)
Время скачки - в основном зависит от серевера...

500 часов на 500тыс документах получается - РОВНО... цифра надуманная, IMHO

ps. В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.

писатель:
Если немного конкретизировать задачу начального варианта, то надо индексировать-переиндексировать 200000-300000 документов, не более :)

ну мы же на пехапе харвестим более 700тыс документов в сутки, индексируем, анализируем, обрабатываем, отслеживаем изменения... цена вопроса 14 часов машинного времени... когда будет 20, то мы отрефакторим на Си.

kiragaz:
Спасибо, ещё раз думаю стоит попробовать.

Если админ её не сможет поставить, то можете к нашим обратиться. Решение достаточно тяжело в установке, но в эксплуатации не одну уже СОТНЮ ТЫСЯЧ тикетов обработали. Система open source, написано на perl. Код для сведующих достаточно прозрачен, дорабатывать легко.

kiragaz:
Спасибо, а Вы сами пользуетесь этой системой? Можете похвалить/поругать? Сложно ли её русифицировать?

там есть русский язык и все сопутствующее... единственное, что надо руссифицировать, так это ответы автореспондилки - "Это автоматический ответ на Ваше сообщение N..." и т.д... вебинтерфейс там на всех языках, а к почте как-то ничего и не надо прикручивать. Если настроить триггеры, то тикеты можно закрывать/передавать прямо из почты - уже забыл когда на веб последний раз лазал.

Под неё есть диаграммы Ганта вроде готовые уже, что просто незаменимо было бы... если бы они столько денег не стоили.

Зингельшухер:
Перед тем как обсуждать надо отговорить человека от совершения ошибки, а уж потом когда он встанет "на путь истинный" продолжать обсуждение по теме...

а я вот не считаю его желание ошибкой, т.к. по условиям задачи объем индексируемых страниц, скорость идексации и т.д. совсем не оговаривается... другое дело скорость разработки... вот тут она выше и дешевле.

igor456:
Интересно, а в чем глубинный смысл писать поисковик на "php" ?

в надежде шо скоро появится вменяемый пехапе компилятор.

Кстати если за php паука поговорить, то в non blocked тыщ 6 сокетов нормально тянет... правда select там иногда глючит, но это отслеживается. Если по 300 сокетов расфоркать на 20 процессов, то по мегабитам прилично там ссасывает... до 400 мегабит наман сливает... смысла лить быстрее нет, т.к. надо еще и записывать это куда-то.

Всего: 2667