- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Нужно сделать 10 млн. запросов с одного сервера к сайту, которые не будет против, скажем так ))
Если по 1 запросу в сек. это почти пол года. У кого есть опыт, расскажите плиз как это реализуется на PHP?
Допустим у меня в базе 10 млн. ссылок. Я по крону раз в минуту запрашиваю определенную партию, а дальше что - в цикле каждый запрос кидать на отдельный прокси? Так все равно это последовательная операция, а как сделать параллельно?
В общем буду рад любым советам.
Нужно сделать 10 млн. запросов с одного сервера к сайту, которые не будет против, скажем так ))
Если по 1 запросу в сек. это почти пол года. У кого есть опыт, расскажите плиз как это реализуется на PHP?
Допустим у меня в базе 10 млн. ссылок. Я по крону раз в минуту запрашиваю определенную партию, а дальше что - в цикле каждый запрос кидать на отдельный прокси? Так все равно это последовательная операция, а как сделать параллельно?
В общем буду рад любым советам.
https://www.php.net/manual/ru/function.curl-multi-init.php
1. настройка сервера на такое количество запросов
2. знать, что лимит у ДЦ есть также, для защиты от ДДОС, у меня например успешно делается лишь 3000 запросов за 1 раз
3. Сама структура ботов
Таблица id|url|status
Бот берёт любой RAND() из таблицы со статусом 0
Скачивает страниц или что там надо делать, после успешной операции ставит записывает 1 в статус.
4. Количество запущенных ботов регулируется сколько надо
Дальше уже оптимизация, можно не долбить БД каждый раз, а при запуске узнать сколько осталось и распределить ID по количеству ботов, чтобы они не пересекались.
Дальше тонкие настройки, сколько памяти всё это добро потребляет, справляется ли диск с записью данных и канал и т.д.
Да как писали выше, можно и мультикурл заюзать, всё зависит от задачи, что именно нужно делать.
Также чтобы экономить память, можно делить задачи, одни боты тупо скачивают данные, другие обрабатывают, друг другу не мешают и в случаи чего не нужно перезапускать всё заново т.к. забыли что-то спарсить.
https://www.php.net/manual/ru/function.curl-multi-init.php
Спс, вероятно то что нужно, пошел тестировать!