- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
А какая разница, какой у него юзер-агент, если айпишник реально гугловский?
Не надо его никак ограничивать.
Это заблуждение, что если пришедший на сайт робот от гугла, то он может творить что угодно.
sanek1991, На счёт " с частотой порядка 20 - 30 раз в секунду. Продолжительность около 5-ти минут" - это небольшая нагрузка. Не стоит по этому поводу заморачиваться, но если нагрузку данный робот осуществляет реально непосильную для конкретно вашего сервера, то не опасайтесь и в скрипт сайта включайте ограничитель.
К примеру, пришёл повторно тот же бот раньше чем через 5 секунт - отдаёте ему код 205 и с надписю на английском "зайди через 5 сек."
Если это реально гуглбот, то он это понимает и начинает заходить пореже. И санкций и проблем из за этого не возникает. Я лично проверял.
На счет подозрения "гугл не гугл". Какая разница. В случае если робот оказывает непосильную нагрузку, в результате которой обычный посетитель не может попасть на сайт, но нафиг такого бота.
Роботов, в принципе надо не стесняться и притеснять, чтоб не разбушлатились. А то сейчас много чего непотребного в сети развелось.
К примеру GPTbot. Когда он приходит на сайт - это да. Кто сталкивался, тот знает.
На счет подозрения "гугл не гугл". Какая разница. В случае если робот оказывает непосильную нагрузку, в результате которой обычный посетитель не может попасть на сайт, но нафиг такого бота.
Отличный совет, особенно когда в некоторых темах даже на этом форуме Плач Ярославны по былым денькам, когда Google индексировал новые страницы шустрее, чем Яндекс. Именно такой совет более предпочтителен, вы считаете? Не арендовать/настроить сервер, который будет справляться с типичной для бота Google нагрузкой, а ограничить бота.
Правильно, так его, этого бота Google, пусть пореже приходит 😂
Смотрел, да только там отчеты идут с детализаций по дням.
Да и формируются они с большим опозданием, а у меня вчера был массовый заход.
Просто есть подозрение что это не бот Гугла.
Ну все равно через сутки видно будет кто это и откуда
Ну и небольшая справка https://support.google.com/webmasters/answer/48620?hl=ru
Но бесполезных роботов куча, в комплексе они уже дают ощутимую нагрузку
Поэтому блочу их всех через CF.
А этот уже второй попался на ограничение в секунду с одного IP адреса.
По отчету CF у этого робота частота примерно 30/сек.
У меня там установлено ограничение на 150 запросов в 10 секунд для всех, но можно делать исключения, добавив в "белый список".
Ранее, Гугл никогда не приходил с такой частотой, хотя заскоки в некоторые дни у него бывают, но максимум 10/сек, при этом User Agent - Googlebot, а тут как обычный юзер.
Ну все равно через сутки видно будет кто это и откуда
Какие сутки, у меня задержка 3 дня в отчете о сканировании.
Какие сутки, у меня задержка 3 дня в отчете о сканировании.
По разному бывает, бывает и больше трёх суток.
Именно от этого не много нагрузки.
Но бесполезных роботов куча, в комплексе они уже дают ощутимую нагрузку
Поэтому блочу их всех через CF.
А этот уже второй попался на ограничение в секунду с одного IP адреса.
По отчету CF у этого робота частота примерно 30/сек.
У меня там установлено ограничение на 150 запросов в 10 секунд для всех, но можно делать исключения, добавив в "белый список".
Ранее, Гугл никогда не приходил с такой частотой, хотя заскоки в некоторые дни у него бывают, но максимум 10/сек, при этом User Agent - Googlebot, а тут как обычный юзер.
А на сайте есть что парсить?
Отличный совет, особенно когда в некоторых темах даже на этом форуме Плач Ярославны по былым денькам, когда Google индексировал новые страницы шустрее, чем Яндекс. Именно такой совет более предпочтителен, вы считаете? Не арендовать/настроить сервер, который будет справляться с типичной для бота Google нагрузкой, а ограничить бота.
Правильно, так его, этого бота Google, пусть пореже приходит 😂
Ко всему на свете надо подходить без яростного фанатизма. Я же не предложил во время молитвы повредить лоб об пол.
Пауза для робота в 1 секунду, в концепции работы сети - ничто. Робот даже и не заметит, что его кто-то в чём-то ограничил. А серверу эта малость даст жить посвободней.
Так то, сайты бывают разные и поэтому к алогоритму работы надо подходить творчески.
Когда страница статическая, то ресурсы сервера практически не задействуются и тогда не жалко - пусть её 1000 ботов грызут хоть с частотой 1000 раз в секунду. nginx настроил и забыл.
А бывают сайты, когда страница строится тяжело с большим числом вычислений и dns запросов к разным ресурсам. В этом случае преимущество доступа к информации должно быть у человека, а ботов надо ограничивать, либо подсовывать им какую-то статическую страницу.
Было подозрение что не гугл-бот.
Не было реакции на ответ 429, хотя где-то читал что Гугл на него реагирует.
А тут по отчету, периодически долбит по 5 - 10 минут, CF зафиксировал.
CF отдаёт код 429 если не вписываться в установленное правило лимитов на запросы для одного IP.
У меня сейчас в логах все запросы поискового бота идут с 66.249.64.*
74.125.* это какие-то прокси гугла. Среди них есть GoogleImageProxy, который использует gmail, всё остальное это, имхо, парсеры через никому неизвестные сервисы. Я бы полностью не банил, но ко всему что оттуда приходит нужно относиться с подозрением.
P.S. Еще у них есть облако, например AS396982, оттуда вообще ничего хорошо никогда не приходит. Но продолжайте заносить их в белые списки, вдруг это сёрч бот😂