Похоже Яндекс ввел ограничение по времени...

12
lda
На сайте с 02.11.2005
Offline
90
lda
1031

Похоже Яндекс ввел ограничение по времени между запросами к выдаче.

Есть скрипт кот парсит выдачу (ну там проверяет всякие беки и т.п.), если пропарсить одну страницу, то все ок, с двух уже начинаются проблемы пишет " Документ-образец недоступен."

З.Ы. Скрипт работает через снупи класс.

Кто как борется с этим ? Попробовал со слипом (аж 10 секунд паузы) - не помогло, может как-то с сессиями, т.е. для каждого нового обращения к Яндексу новую сессию?

Только вот я не знаю как? :)

Сессии тоже не помогают... :(

OZE
На сайте с 21.05.2006
Offline
152
OZE
#1

когда идет парсинг выдачи параллельно через JS дергаются нужные урлы, если такие урлы не дергаются, то считаем, то какой-то "умный" бот опять парсит - отправляем его ф топку

изучайте html выдачи, станет понятно;)

lda
На сайте с 02.11.2005
Offline
90
lda
#2
OZE:
когда идет парсинг выдачи параллельно через JS дергаются нужные урлы, если такие урлы не дергаются, то считаем, то какой-то "умный" бот опять парсит - отправляем его ф топку

изучайте html выдачи, станет понятно;)

У меня скрипт кот. проверяет индексацию саповских ссылок, тут не в самом парсинге дело, а втом что для каждой ссылки нужно скачать 1 страницу, если она всего одна, то все ок, если их больше, то уже ничего не выдает...

progress
На сайте с 11.07.2006
Offline
125
#3
OZE:
когда идет парсинг выдачи параллельно через JS дергаются нужные урлы, если такие урлы не дергаются, то считаем, то какой-то "умный" бот опять парсит - отправляем его ф топку

изучайте html выдачи, станет понятно;)

А если JS отключен в браузере? Я такого ограничения не наблюдаю :)

тут не в самом парсинге дело, а втом что для каждой ссылки нужно скачать 1 страницу

На непот чтоли проверяете? XML поиск не пробовали использовать?

lda
На сайте с 02.11.2005
Offline
90
lda
#4
progress:
А если JS отключен в браузере? Я такого ограничения не наблюдаю :)



На непот чтоли проверяете? XML поиск не пробовали использовать?

Не не непот, именно индексацию ссылок. В xml ограничение на 1000 запросов в день...

Никак не пойму как JS связано с работой php скрипта?

progress
На сайте с 11.07.2006
Offline
125
#5
В xml ограничение на 1000 запросов в день...

Ну выже не каждый день проверяете индексацию, делайте проверку порционно.

Никак не пойму как JS связано с работой php скрипта?

Как я понял, автор имел ввиду, что исполняются js скрипты и дергают семафоры, которые и разрешают отдачу всей выдачи. Но мне кажется это очень и очень сомнительным

OZE
На сайте с 21.05.2006
Offline
152
OZE
#6
progress:
Как я понял, автор имел ввиду, что исполняются js скрипты и дергают семафоры, которые и разрешают отдачу всей выдачи. Но мне кажется это очень и очень сомнительным

все верно,

этот способ конечно не является 100%-гарантией, то заставляет в яндекс крутиться некоторые шестеренки

у меня пару раз уже IP банился из-за парсинга выдачи, я связываю это как раз с проверкой через JavaScript

Shtogrin
На сайте с 02.11.2006
Offline
95
#7
lda:
Никак не пойму как JS связано с работой php скрипта?

Да скорей никак. OZE предполагает, что когда запрос идет через браузер, то кроме html еще тянется все оформление (скрипты, картинки, стили), а если запросов к этим дополнительным ресурсам нет, то яндекс считает что это робот. Скорее всего это не так. Проверьте правильность отправляемого заголовка, закрытие соединения.

www.shtogrin.com (http://www.shtogrin.com/). Канцтовары (http://www.invit.com.ua/). 1С Бухгалтерия (http://account.kiev.ua/).
lda
На сайте с 02.11.2005
Offline
90
lda
#8
OZE:
все верно,
этот способ конечно не является 100%-гарантией, то заставляет в яндекс крутиться некоторые шестеренки

у меня пару раз уже IP банился из-за парсинга выдачи, я связываю это как раз с проверкой через JavaScript

А вы всегда такой способ использовали?

Через Снупи класс не пробовали, сейчас проверил выдачу (обычный поиск) отдает отлично, но вот индексацию бэков через раз правильно?

lda
На сайте с 02.11.2005
Offline
90
lda
#9
Shtogrin:
Да скорей никак. OZE предполагает, что когда запрос идет через браузер, то кроме html еще тянется все оформление (скрипты, картинки, стили), а если запросов к этим дополнительным ресурсам нет, то яндекс считает что это робот. Скорее всего это не так. Проверьте правильность отправляемого заголовка, закрытие соединения.

Это все грамотно делает класc snoopy(см. выше, почему-то проблема только с бэками)

lda
На сайте с 02.11.2005
Offline
90
lda
#10

Хм... кажется нашел в чем причина, почему-то, когда я вытаскиваю из textarea список урлов для проверки, експлодю их по \n в конце каждого урла добавляется "_", никто не знает с чем такое может быть связано?

может

$sites = explode("\n", $sites);

не правильно обрабатывает, точнее оставляет еще какие-то символы там, кот. потом преобразуются в подчеркивание?

З.Ы. Проверил просто:

написал урлы не через перенос строки, а через <br> и:

$sites = explode("<br>", $sites);

все ок сработало.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий