- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Разные парсеры бывают... ;)
Две недели, не так давно, угрохали на нормальный парсер... Чтоб оперативы не хавал и парсил с нормальной скоростью(около 3-4 тысяч страниц в минуту при расходе 1гиг оперативы сервака)
Пришлось на перле писать, т.к. пхп тут совсем не годится.
Чет памяти дофига жрется :) - у меня на курлах 1000 страниц в минуту (по 15-60кб) жрется всего 68 Мб :)
и нагрузка на ЦП не больше 5%
P.S. В предидущем сообщении парсер будет выводить страницу, а не сохранять в переменную $result Чтоб сохранял надо добавить CURLOPT_RETURNTRANSFER...
P.P.S. Хотя если этот пример назвать парсером, то почему бы тогда не $result = file_get_contents('http://ya.ru/'); 🚬
У каждого парсера - своя цель, а курл я для примера привел.
Хотя та функция меня полностью устраивает - я на локальном компе запускаю парсер статистики лайв интернета (по точкам входа на сайт), но там ограничение по запросам - вот часть запросов через другой сервак и тащу (груба говоря аля прокси на коленке :) - гетом передал в скрипт страничку, а он её вывел)
Ошибаетесь - взять хотябы меня - я далеко не профи в програмирование, даже проще сказать новичек.
PS.
Парсер страничек пишется даже мной за 1 минут максимум.
Вот готовый парсер, а дальше делай с полученными данными все что хочешь используя строковые функции - разве необходимо гигантскую квалификацию?
Ну, если даже referer передавать не надо, UserAgent эмулировать, куки поддерживать то юзайте вобще file_get_contents.
Только то, что вы написали - это еще совсем не парсер :)
sokol_jack добавил 19.03.2009 в 11:42
Чет памяти дофига жрется :) - у меня на курлах 1000 страниц в минуту (по 15-60кб) жрется всего 68 Мб :)
и нагрузка на ЦП не больше 5%
Это наверное про curl_multi? Тогда поддерживаю, жрет совсем ничего.
Только вот из неприятного - запрос на 100 урлов будет выполнятся столько, сколько понадобится для самого медленного урла или таймаута.
Мне это надоело, я и на .net десктопную версию сделал. С пулом потоков, все честно. Сказать, что скорость увеличилась - ничего не сказать :)
Если не ленится и число потоков поставить довольно большим (5-10к), то весь канал забивается :)
Ошибаетесь - взять хотябы меня - я далеко не профи в програмирование, даже проще сказать новичек.
PS.
Парсер страничек пишется даже мной за 1 минут максимум.
Вот готовый парсер, а дальше делай с полученными данными все что хочешь используя строковые функции - разве необходимо гигантскую квалификацию?
вот "делай что хочешь" - и будет парсером, а приведённый пример - это всего лишь загрузчик :)
вот "делай что хочешь" - и будет парсером, а приведённый пример - это всего лишь загрузчик :)
Я просто угораю над народом - у каждого слово парсер - свое понимание, и особенно под свои потребности
- одни долбят в репу - вор контента получай
- вторые угорают что это за парсер это не парсер а..... - Да написал я это для примера sokol_jack, -что парсер писать это гением быть ненадо.
Ну, если даже referer передавать не надо, UserAgent эмулировать, куки поддерживать то юзайте вобще file_get_contents.
Низя, а если соединение зависнет? - не практично + тежех рефов не подставить и пост не передать.
Это наверное про curl_multi? Тогда поддерживаю, жрет совсем ничего.
Только вот из неприятного - запрос на 100 урлов будет выполнятся столько, сколько понадобится для самого медленного урла или таймаута.
Мне это надоело, я и на .net десктопную версию сделал. С пулом потоков, все честно. Сказать, что скорость увеличилась - ничего не сказать :)
Если не ленится и число потоков поставить довольно большим (5-10к), то весь канал забивается :)
Тоже такая фигня надоела - сделал связку связку=сокеты + CURL - сокетами контролирую количество потоков, а курлом выгребаю для моих 20-50 потоков вполне хватает. (ток контролировать нужно аккуратно а то проц на 100% задумывается)
PS.
Хороший у вас канал :) у меня 30 потоков мои 5 Мбит просаживают на 100%
Чет памяти дофига жрется :) - у меня на курлах 1000 страниц в минуту (по 15-60кб) жрется всего 68 Мб :)
и нагрузка на ЦП не больше 5%
Чот я правда загнул... висит несколько процессов, каждый по 30-40 метров...
С мультикурлом(в пхп) была проблема: ему даешь на скачивание 100 урлов, он половину не мог выкачать. Нормально работал только если не более 30 за раз. Вроде бы с ДНС проблема была... сейчас уже не помню :(
Чот я правда загнул... висит несколько процессов, каждый по 30-40 метров...
С мультикурлом(в пхп) была проблема: ему даешь на скачивание 100 урлов, он половину не мог выкачать. Нормально работал только если не более 30 за раз. Вроде бы с ДНС проблема была... сейчас уже не помню :(
Попробуйте без мультикурла - просто на курле, но дергать этот скрипт через кучу сокетов - аля многопоточность получается.
можно парсить через прокси - тогда проблема с баном IP отпадает.
Возникает проблема где взять прокси
Возникает проблема где взять прокси
Вот поэтому проще купить пачку IPов по $0.8 и не дергаться с поиском (точнее с пакупкой списков) тормазных и отваливающихся проксиков, они нужны только для конфиденциальности (во время хака/спама, да и возможно что те прокси будут уже везде в бане).
bimcom, проще всего взять ещё один дешёвый хостинг на другой домен. Там создать скрипт (к примеру get.php) со следующем содержанием:
После заменить в парсере "адрес_откуда_парсим" на "адрес_другого_хостинга/get.php?url=адрес_откуда_парсим".
Даже если сайт пока небанили, разумнее парсить с другого IP.