- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Лучшее, что смогли, пока, получить - 3,6 секунды на парсинг и индексацию страницы.
Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.
В нескольких потоках на 5 серверов и уже меньше суток получается, на 500 тыс документов... хотя IMHO цифра с потолка взята.
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.
Делал на PIV скачку в 100 потоков через multi curl. Соотношение было такое: 20 секунд качаются данные (с учётом прокси), 10 секунд они обрабатываются. Задача была парсить выдачу Google, выдирать из выдачи ссылки и складывать в файл (не в базу же - там тормоза были бы). Никаких регекспов - через работу со строками. Вот такая вот скорость простой операции - вытащить ссылки из документа с заранее известной структурой. Так что о скорости на PHP я бы задумался. 200К страниц это сутки работы краулера. А эти данные надо ещё распарсить, обработать, положить в базу, переиндексировать, защититься от краха системы во время переиндексации и пр.
Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.
ps. Стоит задуматься о решении в целом и не кидать камни в сторону пехапе... для такой задачи это дешево и эффективно.
Если это адресовано мне...
1. Измерения проводились на 1000 разнородных страниц для получения среднего времени.
2. Скачка в потоках - ни кто не спорит. А парсить в потоках?😮
На многяйцевом оно конечно, можно...
Но эффективне, даже на 2-х яйцевом, в 2-х процессах.
Да, программеров гоните.... Слава правильно написал... только в шею или в задницу надо еще опредилится, т.к. результат уж слишком впечатляющий.
ps. При эффективном решении задачи все упирается в канал и дисковое IO.
Гоните в шею программера. Яндекс при такой скорости переиндексировал бы Рунет со своими 70 серверами раз в 3,6*3 млрд. док/70 серверов/86400 сек/сутки = 1800 суток ~ 5 лет.
1. Плиз, ссылку на такие подробности о Яндексе...
2. Обгонять Яндекс и не собирались.😂
Слава, Вы меня шокируете. Скрипт на sh + wget раз в сутки скачивают все главные страницы сайтов в .ru 😂 это не 200К страниц, а в разы больше. В контексте Вашей задачи Вы говорите фактически о производительности используемых прокси.
Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.
Да, программеров гоните....
Пока, с Вашего позволения, погожу...;)
Так, как в качестве профилера использовался... PII-450+256RAM.😂
ps. При эффективном решении задачи все упирается в канал и дисковое IO.
Это - аргумент!
PS Пипсками меркаться нет интереса. Так, как рашались видимо совсем разные задачи и в совершенно разных условиях.
Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.
Без учета размера страницы и типа страницы?;)
Парсинг HTML- и EXEL-документа - немного будут отличаться...
Я говорю отдельно о времени работы прокси и отдельно о времени вытаскивания 100 ссылок с каждой из 100 скачанных страниц. Безусловно, без прокси скачка была бы быстрее. Но скорость выдирания данных это бы не изменило. Думать о том, сколько времени займёт правильное распарсивание страницы, подсчёт плотности слов и складывание данных в базу даже не хочу. Оценочно - 1 секунда на страницу.
Не могу сказать, сколько миллионов ссылок мы выгрибаем в сутки.... может быть больше миллиарда... сколько iframe мы анализируем на предмет распространения badware и т.д... все это только к новому году будет рефакторится на сишке.. пехапе для .ру хватает под все наши задачи и это очень дешево... а отлаженную задачу отрефакторить на си еще дешевле
Я прошу прощения, но разве трафик уже не бесплатный у большей части хостингов? 😕
Бесплатный сыр - только в мышеловке. И то - только для второй мышки.😂
А уж хостер всегда найдет как денег содрать...;)