- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Похоже Яндекс ввел ограничение по времени между запросами к выдаче.
Есть скрипт кот парсит выдачу (ну там проверяет всякие беки и т.п.), если пропарсить одну страницу, то все ок, с двух уже начинаются проблемы пишет " Документ-образец недоступен."
З.Ы. Скрипт работает через снупи класс.
Кто как борется с этим ? Попробовал со слипом (аж 10 секунд паузы) - не помогло, может как-то с сессиями, т.е. для каждого нового обращения к Яндексу новую сессию?
Только вот я не знаю как? :)
Сессии тоже не помогают... :(
когда идет парсинг выдачи параллельно через JS дергаются нужные урлы, если такие урлы не дергаются, то считаем, то какой-то "умный" бот опять парсит - отправляем его ф топку
изучайте html выдачи, станет понятно;)
когда идет парсинг выдачи параллельно через JS дергаются нужные урлы, если такие урлы не дергаются, то считаем, то какой-то "умный" бот опять парсит - отправляем его ф топку
изучайте html выдачи, станет понятно;)
У меня скрипт кот. проверяет индексацию саповских ссылок, тут не в самом парсинге дело, а втом что для каждой ссылки нужно скачать 1 страницу, если она всего одна, то все ок, если их больше, то уже ничего не выдает...
когда идет парсинг выдачи параллельно через JS дергаются нужные урлы, если такие урлы не дергаются, то считаем, то какой-то "умный" бот опять парсит - отправляем его ф топку
изучайте html выдачи, станет понятно;)
А если JS отключен в браузере? Я такого ограничения не наблюдаю :)
На непот чтоли проверяете? XML поиск не пробовали использовать?
А если JS отключен в браузере? Я такого ограничения не наблюдаю :)
На непот чтоли проверяете? XML поиск не пробовали использовать?
Не не непот, именно индексацию ссылок. В xml ограничение на 1000 запросов в день...
Никак не пойму как JS связано с работой php скрипта?
Ну выже не каждый день проверяете индексацию, делайте проверку порционно.
Как я понял, автор имел ввиду, что исполняются js скрипты и дергают семафоры, которые и разрешают отдачу всей выдачи. Но мне кажется это очень и очень сомнительным
Как я понял, автор имел ввиду, что исполняются js скрипты и дергают семафоры, которые и разрешают отдачу всей выдачи. Но мне кажется это очень и очень сомнительным
все верно,
этот способ конечно не является 100%-гарантией, то заставляет в яндекс крутиться некоторые шестеренки
у меня пару раз уже IP банился из-за парсинга выдачи, я связываю это как раз с проверкой через JavaScript
Никак не пойму как JS связано с работой php скрипта?
Да скорей никак. OZE предполагает, что когда запрос идет через браузер, то кроме html еще тянется все оформление (скрипты, картинки, стили), а если запросов к этим дополнительным ресурсам нет, то яндекс считает что это робот. Скорее всего это не так. Проверьте правильность отправляемого заголовка, закрытие соединения.
все верно,
этот способ конечно не является 100%-гарантией, то заставляет в яндекс крутиться некоторые шестеренки
у меня пару раз уже IP банился из-за парсинга выдачи, я связываю это как раз с проверкой через JavaScript
А вы всегда такой способ использовали?
Через Снупи класс не пробовали, сейчас проверил выдачу (обычный поиск) отдает отлично, но вот индексацию бэков через раз правильно?
Да скорей никак. OZE предполагает, что когда запрос идет через браузер, то кроме html еще тянется все оформление (скрипты, картинки, стили), а если запросов к этим дополнительным ресурсам нет, то яндекс считает что это робот. Скорее всего это не так. Проверьте правильность отправляемого заголовка, закрытие соединения.
Это все грамотно делает класc snoopy(см. выше, почему-то проблема только с бэками)
Хм... кажется нашел в чем причина, почему-то, когда я вытаскиваю из textarea список урлов для проверки, експлодю их по \n в конце каждого урла добавляется "_", никто не знает с чем такое может быть связано?
может
$sites = explode("\n", $sites);не правильно обрабатывает, точнее оставляет еще какие-то символы там, кот. потом преобразуются в подчеркивание?
З.Ы. Проверил просто:
написал урлы не через перенос строки, а через <br> и:
$sites = explode("<br>", $sites);все ок сработало.