- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день!)
Возможно вы знаете как парсить такие сайты.
Перед входом на сайт появляется вот это
Checking your browser before accessing animepace.si.
This process is automatic. Your browser will redirect to your requested content shortly.
Please allow up to 5 seconds…
Насколько понимаю - то парсить через боль и страдания.
Не помню точно cloudflare там был или какая-то аналогичная защита, но суть была в том, что там выполнялся код на js, который определял на selenium ли или что-то аналогичное у вас и ставил нужную куку. Кука, естественно каждый раз разная и код обфусцрован. В общем, пришлось в дополнение к selenium'у прикручивать еще Fiddler2 и фильтровать траффик, подменяя то ли сам js, то ли запрос, кторый js-скрипт в итоге посылал. Но у меня была разовая задачка - там такая доля ручного труда была оправдана.
Вам советую посмотреть на эту страничку в бразере и dev tools вкладка network или fiddler - чтобы понять, какие файлы там запрашиваются. А потом попвыряться с скриптах, чтобы понять, что там происходит.
При помощи phantomjs парсится элементарно. Выставляешь нужный таймаут и забираешь страницу.
Добавил заголовки к curl, теперь работает на localhost, а на хостинге нет.
Почему?
ты бы показал, что curl возвращает
ты бы показал, что curl возвращает
Warning: array_merge(): Argument #1 is not an array in
Warning: Invalid argument supplied for foreach() in
Он не может получить страницу, странно на openserver всё работает через куки
curl_setopt($curl, CURLOPT_ENCODING , "utf-8");
curl_setopt($curl, CURLOPT_HTTPHEADER, [Тут заголовки моего браузера]
Проблема на хостинге ? заметил версия php 5.5 сервера, а localhost 5.7
semur123, версии 5.7 не существует если что
И ошибка у вас не в курл, а в том что у вас вместо массива какой то шлак лезет туда, где ожидается массив
semur123, версии 5.7 не существует если что
И ошибка у вас не в курл, а в том что у вас вместо массива какой то шлак лезет туда, где ожидается массив
Ну 5.6.23 хорошо
Я говорю что курл не может получить страницу .. и выдает ошибку.
Почему работает тогда на localhost этот код ?
Если убрать с заголовка 'accept-encoding:gzip, deflate, br', тогда работает localhost, с ним же выдает ту же ошибку на localhost
Возможно курл получает не utf-8 формат, и не может найти html теги?
Я пользуюсь регуляркой
Вы показали ошибку функции слияния массивов array_merge и то что в цил foreach передаете не итерируемый элемент.
То что у вас где то работает, а где то не работает это не значит что вина не в вас, скорее всего вы просто не понимаете особо что делаете от сюда и ноги растут... как и руки :)
Вы показали ошибку функции слияния массивов array_merge и то что в цил foreach передаете не итерируемый элемент.
То что у вас где то работает, а где то не работает это не значит что вина не в вас, скорее всего вы просто не понимаете особо что делаете от сюда и ноги растут... как и руки :)
Мда... ///