Искусственное замедление скорости сканирования Googlebot

12
iOweYouNothing
На сайте с 08.01.2011
Offline
190
2661

Добрый день.

Не спрашивайте "зачем?" мне понадобилось замедлить скорость сканирования сайта Googlebot`ом, просто "нужно", т.к. уже надоело выдерживать частоту запросов от бота 6 запросов/сек. (более полляма запросов в сутки, не считая других ботов/пользователей) с динамикой на увеличение.

Вопрос в том, как это правильнее сделать. Есть 2 варианта:

1. В Search Console -> Настройки сайта -> Частота сканирования выставить желаемое значение.

2. На уровне ядра сайта программно увеличить время работы скрипта: грубо говоря, "выровнять в большую сторону" время выполнения скрипта до требуемых значений, чтобы Googlebot сам понял, что нужно уменьшить число обращений в секунду.

По первому пункту: как бы, проще не бывает, но мне религия не позволяет :)

По второму: вижу единственный минус в увеличении количества открытых соединений (теоретически, это временно, пока бот сам не снизит частоту обращений).

[ATTACH]179815[/ATTACH]

png Screenshot_4.png
SeaBreeze
На сайте с 11.09.2005
Offline
253
#1

Пропишите в robots.txt

User-agent: Googlebot

Crawl-delay: 20 # задает тайм-аут в 20 секунд между запросами.

И бот снизит свой аппетит.

F
На сайте с 11.07.2007
Offline
133
#2
SeaBreeze:
Пропишите в robots.txt

User-agent: Googlebot
Crawl-delay: 20 # задает тайм-аут в 20 секунд между запросами.

И бот снизит свой аппетит.

Разве для Гугла это давно не действует?

D
На сайте с 28.06.2008
Offline
1101
#3

Самое тупое что можно придумать - мешать роботу сканировать сайт. Радоваться нужно а не ограничивать.

iOweYouNothing
На сайте с 08.01.2011
Offline
190
#4
SeaBreeze:
User-agent: Googlebot
Crawl-delay: 20

насколько я помню, Гугл это уже игнорирует

Dram, самое тупое это давать пространственные комментарии. Что бы Вы делали, если бы, к примеру, Ваше железо уперлось в пропускную способность канала? лимит трафика? возможности железа держать открытые коннекты? финансирование проекта? лимиты сторонних сервисов?

Вы наверное банально ответите либо менять железо, либо идти на завод :)

Вопрос с ограничением бота возник исключительно из-за того, что мои ресурсы не безграничны: когда бот выгрызает все квоты/лимиты сторонних, используемых мною сервисов, нужно его усмирять, а менять стратегию работы сайта уже (на данный момент) некуда. Своё железо тут не причем.

Mik Foxi
На сайте с 02.03.2011
Offline
1076
#5

535i, Fabrikart, не путайте с яндексом, это яндекс отказался от поддержки этого параметра. Гугл его отлично понимает, но замедлять гугла это реально глупая идея, ничего хорошего не принесет. Лучше взять более мощный сервер или оптимизировать скрипты, чтоб они вытягивали запросы от гугла.

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.
A3
На сайте с 07.05.2011
Offline
68
#6
foxi:
535i, Fabrikart, не путайте с яндексом, это яндекс отказался от поддержки этого параметра. Гугл его отлично понимает

Понимает... отлично... ну-ну:

https://prnt.sc/lt44e9

https://webmasters.googleblog.com/2017/01/what-crawl-budget-means-for-googlebot.html

XPraptor
На сайте с 15.10.2004
Offline
333
#7

ТС, если машина позволяет - гугл будет парсить вас быстро. В консоли настройка замедлит его через 2-3 месяца только и то не на ту величину, которую вы просите, а опять же на его усмотрение.

iOweYouNothing
На сайте с 08.01.2011
Offline
190
#8

XPraptor, железо позволяет. Я только "ЗА", чтобы Гугл кушал мои страницы с максимальной скоростью - для этого с моей стороны созданы все условия.

Проблема в другом: в процессе сканирования расходуются сторонние ресурсы (есть лимиты, квоты), которые сайт активно использует. Вот с этим приходится считаться. Не всегда есть возможность их купить даже при наличии денег.

---------- Добавлено 10.12.2018 в 17:58 ----------

XPraptor:
В консоли настройка замедлит его через 2-3 месяца

вот это новость.... в моём понимании эта настройка должна была бы срабатывать чуть ли не на следующий день.

---------- Добавлено 10.12.2018 в 18:08 ----------

foxi, я припоминаю, что совсем недавно Вы в Яндекс ветке подобный вопрос подымали. Кажется, Вашим решением было периодически http-код 503 отдавать.

Это оправдало ожидания или Вы нашли другое решение?

Mik Foxi
На сайте с 02.03.2011
Offline
1076
#9

535i, да яндекс я усмиряю кодом:

if (mb_stripos($useragent, 'yandex.com', 0, 'utf-8') !== false) {

$load = sys_getloadavg();

if ($load[0] > 4) {

header('HTTP/1.1 503 Service Temporarily Unavailable');

header('Status: 503 Service Temporarily Unavailable');

header('Retry-After: 3600');

die();

}

}

отдавая его только яндекс боту. яндекс не обижается и реально усмиряется.

S0
На сайте с 09.09.2013
Offline
123
#10
foxi:
535i, да яндекс я усмиряю кодом:
if (mb_stripos($useragent, 'yandex.com', 0, 'utf-8') !== false) {
$load = sys_getloadavg();
if ($load[0] > 4) {
header('HTTP/1.1 503 Service Temporarily Unavailable');
header('Status: 503 Service Temporarily Unavailable');
header('Retry-After: 3600');
die();
}
}
отдавая его только яндекс боту. яндекс не обижается и реально усмиряется.

ну-ну, отдавать 503, конечно усмиряет, но трудно назвать это полезным.

ТС, у многих сейчас наоборот проблема с попаданием страниц в индекс... варианты решения:

- удаления низкокачественных страниц, не думаю, что при таких показателях все страницы "вылизаны", скорее парсинг или генеренка.

- оптимизация скриптов/движка

- улучшить железо/повысить лимиты

- ограничить других ботов, которые вам не интересны, туда же парсеры, iframe, хотлинкнинг и прочую ересь ...

Других вариантов особо не ждите 🍿

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий