Поисковые роботы сильно стали нагружать сайт. Что делать?

ES
На сайте с 04.05.2005
Offline
109
1188

Хостер говорит, что сайт начал создавать черезмерную нагрузку на сервер. Анализ IP выявил, что львиная часть запросов идет от гугла и яндекса. В связи с чем создали robots.txt и добавил туда:

User-agent: *

Disallow:

Crawl-delay: 10

Несколько дней было все в норме, сейчас опять нагрузка выросла с тех же IP. Что делать?

1. Оптимизировать работу скриптов, но как понять, есть ли сильнонагружающие и если есть, то как их искать?

2. Хостер предлагает взять более дорогой тариф или просто заблокировать заходы с IP поисковиков. Не хочется ни того, ни другого.

3. Может быть можно как-то еще тюнинговать robots.txt?

Mik Foxi
На сайте с 02.03.2011
Offline
1076
#1

заблокировать в хтасесс по юзер агенту, а также по ip если юзер агент типа обычного браузера.

роботс тут особо не поможет, на Crawl-delay многие забивают, а всякие типа бинга - так и на полный запрет его в роботсе не смотрят. больше ничего на шаред хостинге не сделать.

Антибот, антиспам, веб файрвол, защита от накрутки поведенческих: https://antibot.cloud/ + партнерка, до 40$ с продажи.
Den73
На сайте с 26.06.2010
Offline
523
#2

повысить тариф

если считаете то что это не оправданно то попробовать сменить хостинг.

ES
На сайте с 04.05.2005
Offline
109
#3
foxi:
заблокировать в хтасесс по юзер агенту, а также по ip если юзер агент типа обычного браузера.
роботс тут особо не поможет, на Crawl-delay многие забивают, а всякие типа бинга - так и на полный запрет его в роботсе не смотрят. больше ничего на шаред хостинге не сделать.

Но если заблокировать, то поисковики индексировать не смогут. Как они отнесутся к сайту тогда?

Mik Foxi
На сайте с 02.03.2011
Offline
1076
#4
EvShi:
Но если заблокировать, то поисковики индексировать не смогут. Как они отнесутся к сайту тогда?

так вы ж яндекс и гугл не баньте. а баньте всякое бесполезное непотребство. по моим данным, основанным на логах более 10к сайтов - гугл с яндексом это около 5-10% ботов, посещающих сайт, т.е. нагрузка реально может быть снижена на 90%

SX
На сайте с 15.07.2008
Offline
79
#5

foxi, хехе... странные у вас сайты.. у меня сайтец был 80% гуглботы были.. остальное мейлру, мсн и пр...

по сабжу:

1) оптимизировать скрипты, если сами не в состоянии обратиться к спецам (за $)

2) поменять тариф на более дорогой

3) менять хостера, но тут надо быть аккуратным и выбрать норм хостера, чтоб от него через неделю не съезжать :)

4) роботсом делу не поможете...

5) будете бездействовать сайт отключат!

поторопитесь с решением

Mik Foxi
На сайте с 02.03.2011
Offline
1076
#6
SpaceX:
foxi, хехе... странные у вас сайты.. у меня сайтец был 80% гуглботы были.. остальное мейлру, мсн и пр...

чем старше сайт (и более раскрученный), тем больше там будет левых ботов. это не значит что ко мне гугл не любит ходить, просто всяких других ходит больше, бинг (со своими клонами), соломоно с ахрефсом, и много других, генерящих очень многотыщ обращений к сайтам в сутки.

ES
На сайте с 04.05.2005
Offline
109
#7
foxi:
так вы ж яндекс и гугл не баньте. а баньте всякое бесполезное непотребство. по моим данным, основанным на логах более 10к сайтов - гугл с яндексом это около 5-10% ботов, посещающих сайт, т.е. нагрузка реально может быть снижена на 90%

Как раз основная масса запросов от Гугла и Яндекса идет. Именно они и делают нагрузку.

DT
На сайте с 28.11.2006
Offline
298
#8
Как раз основная масса запросов от Гугла и Яндекса идет. Именно они и делают нагрузку.

Что за сайт такой что они к вам каждый день ходят? Отдавайте им RSS-ленту с полной картой сайта.

И вы уверены что именно поисковые боты создают проблему? Я вот не очень!

Дешевый CloudLinux хостинг (http://www.provisov.net) много площадок в России, Франции, Украине, Германии, Нидерландах, США, Канаде. SSL-сертификат (https://www.provisov.net/blog/2016/10/26/besplatnyj-ssl-sertifikat-dlya-vsex-vashix-sajtov/) бесплатный и предустановленный для всех доменов
ES
На сайте с 04.05.2005
Offline
109
#9
dmitrii_trof:
Что за сайт такой что они к вам каждый день ходят? Отдавайте им RSS-ленту с полной картой сайта.

И вы уверены что именно поисковые боты создают проблему? Я вот не очень!

Сайт - энциклопедия. Несколько десятков тысяч страниц в индексе. Уверен, судя по IP ходят именно они, что создает основную массу нагрузки.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий