Google нервно читает скрипты)

12
Z
На сайте с 06.12.2012
Offline
6
zeu
1507

которыми закрыты внешние ссылки. для эксперимента закинул скрипт во внешний файлик, в папку со скриптом положил htaccess, в котором указал

RewriteCond %{HTTP_USER_AGENT} (Google|Googlebot|spider) [NC]

RewriteRule ^(.*)$ - [F]

кроме этого запретил доступ к папке в robots.txt. проверил через браузер с гугловским юзерагентом - железная блокировка. пошел в ВМ, в "предпросмотр страниц", запульнул страницу с внешней ссылкой, обрабатываемой скриптом, а сам - в логи. появляется гуглобот, ломится к скрипту, а там ессно болт. еще пару раз ломится - болт. приходит другой бот, google preview, тоже ломится - болт. опять и опять. ну вроде угомонился, иду в ВМ, там есть список файлов, подключенных к странице. навожу на экспериментальный - всплывает картинка с грустным роботом и надписью "что-то сломалось. это все что нам известно". ну, думаю - победа :idea: а на следующий день в логах вижу, что гуглоботы опять упорно ломились к файлу, htaccess их естественно тормозил.., захожу в ВМ, навожу на экспериментальный файл, а там:

это ж оно начало "нервничать", что от него что-то скрывают, зашло под безобидным юзерагентом и прочитало запрещенный скрипт. как дальше жить?

aklimovv
На сайте с 18.01.2008
Offline
224
#1

Вы думаете поставил запретную директиву и всё, никто не читает, ну продолжайте думать так. Если что-то скинул в сеть, обязательно кто-то прочитает. Но в результатах поиска для всех это отображаться не будет.

ЕЗ
На сайте с 14.12.2012
Offline
61
#2

Если находится в сети, то обязательно прочитают, ну только в результатах поиска не будет выдаваться для всех

Z
На сайте с 06.12.2012
Offline
6
zeu
#3
aklimovv:
Вы думаете поставил запретную директиву и всё, никто не читает

в каком месте моего поста вам это показалось? не читается с юзерагентами, начинающимися на Google, за вообще всех я не говорил. удивило то, что гуглу так сильно захотелось познать запретное, что он пригнал бота с левым юзерагентом за вожделенной ссылкой... какого хрена?

Алексей Барыкин
На сайте с 04.02.2008
Offline
272
#4

Это обычное поведение поисковиков.

Они время от времени заходят на сайты под левым UA.

Например чтобы попалить клоакинг.

LEOnidUKG
На сайте с 25.11.2006
Offline
1749
#5

ТС, вы серьёзно считаете, что вы самый умный? :)

Зря, всё уже ясно и понятно, а вы какой-то якобы эксперимент поставили.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
DZ
На сайте с 31.07.2012
Offline
30
#6

zeu поисковики учитывают robots.txt только при выдаче, на проход робота по сайту robots.txt не влияет.

богоносец
На сайте с 30.01.2007
Offline
763
#7
DiZSl:
поисковики учитывают robots.txt только при выдаче

Неа.

zeu:
как дальше жить?

В роботсе запрет оставьте, а в htaccess уберите.

zeu:
зашло под безобидным юзерагентом и прочитало запрещенный скрипт

Ну им же надо бороться с вирусами и пр. дорами.

Z
На сайте с 06.12.2012
Offline
6
zeu
#8
LEOnidUKG:
ТС, вы серьёзно считаете, что вы самый умный? :)
Зря, всё уже ясно и понятно, а вы какой-то якобы эксперимент поставили.

не надо завидовать, я перечитал много тем об этом и не увидел там однозначного "ясно и понятно", только "не переходит и не индексирует". а он судя по всему переходит.

ну в общем, все понятно, всем спасибо :)

DZ
На сайте с 31.07.2012
Offline
30
#9

богоносец это не противоречит тому,что я сказал

богоносец
На сайте с 30.01.2007
Offline
763
#10
DiZSl:
это не противоречит

Ну как же не противоречит?

С 10 декабря (примерно) robots.txt есть.

6 декабря ещё не было... и осенью не было, наверное несколько месяцев (самый ранний кэш был от 28 сен, сейчас его нет).

В индекс залезли результаты поиска и на момент этого поста ещё они в выдаче есть, хотя Disallow: /

Пока (на момент этого поста) ещё есть чуть более ранний пример, закрытый в robots.txt около 25 ноября. Сколько ещё?

Вообще, такие ситуации полезны для изучения. Один дубль удалить не долго, а вот десятки тысяч уже сложнее.

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс
даже если вы запретите поисковым роботам сканировать содержание вашего сайта с помощью файла robots.txt, возможно, что Google обнаружит его другими способами и добавит в индекс. Например, на ваш контент могут ссылаться другие сайты

Закрытое в роботсе бывает в выдаче без кэша. Открытое — с кэшем.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий