Игнорирует robots.txt

WL
На сайте с 28.08.2004
Offline
0
1409

Текст файла robots.txt

----------------------------

User-agent: *

Disallow: /img/

Disallow: /goto/

----------------------------

При этом гугл проиндексировал страницы подобные этой:

domain.com/goto/?a=g;id=12017;t=2

Это ссылки для редиректа, я их специально перенаправил через папку GOTO которую запретил для индексации. Гугл первое время обращал на это внимание, но в последний раз не обратил и в итоге проиндексировал пару тысяч не нужных страниц (очень неприятный момент).

Чем вызвано подобное поведение гугл-бота?

[Удален]
#1

Сайт какой, из профайла? Если да, то он вроде не проиндексировал, просто Гугль показывает в списке страниц с сайта все адреса, на которые он знает ссылки (вне зависимости от запрета индексации этих адресов).

Или вы наблюдали в логах запросы от гугльбота этих адресов?

S
На сайте с 17.10.2003
Offline
332
#2

Я тоже заметил невежливое поведения робота Google - есть роботс.тхт:

User-agent: *

Disallow: /add_to_memories

Целью которого было запретить индексацию урлов внутри которых встечается вот такая конструкция /add_to_memories - иог, месяц Гуглу на это наплевать даже новые страницы попадают в базу...

Поменял месяц назад на:

User-agent: *

Disallow: /add

Один черт, в базе полно страниц с адресом содержащим /add_to_memories

😡

Не все ссылки одинаково полезны ( https://www.svift.org/ ). Тут заказываю комментарии и отзывы ( https://qcomment.ru/ref/5651 ) для своих сайтов
WL
На сайте с 28.08.2004
Offline
0
#3

Interitus, вы правы, гугл не стал индексировать полностью страницы, которые ему запрещено было индексировать, но все же хотелось, чтобы он вообще эти ссылки не учитывал при индексации страниц, так как каждая данная ссылка считается как проиндексированная страница. Он пишет что проиндексировал 2000 страниц, хотя большая часть из них - это пустые ссылки не имеющие никакого информационного содержания.

Еще возникает вопрос, есть ли у гугла лимит на количество проиндексированных страниц сайта? Очень не хотелось бы достичь этого лимита из-за того, что гугл прочитал сотни тысяч ссылок, которые ему читать запрещали.

Можно ли как-то обойти это?

[Удален]
#4
Я тоже заметил невежливое поведения робота Google

Правда? Робот Гугля запрашивал с вашего сайта страницы, явно запрещенные в robots.txt?

WoList, ну вы сами же эту проблему создали. Для того, чтобы Гугль узнал, пустая там страница или нормальная полноценная страница - ему надо как минимум эту страницу запросить, и посмотреть что выдаст сервер. А делать это вы ему запретили.

Единственный способ сделать так, чтобы ссылки на запрещенные роботам страницы не появлялись среди списка проиндексированного - это сделать так, чтобы робот Гугль не видел нигде (в том числе на внешних сайтах) ссылки на эти страницы.

WL
На сайте с 28.08.2004
Offline
0
#5
WoList, ну вы сами же эту проблему создали. Для того, чтобы Гугль узнал, пустая там страница или нормальная полноценная страница - ему надо как минимум эту страницу запросить, и посмотреть что выдаст сервер. А делать это вы ему запретили.

Запретил, потому что это ссылки внешнего редиректа. А так как мне не хочется, чтобы эти ссылки были в списке проиндексированных страниц, я запретил гуглу это делать.

По вашим словам запретить гуглу вносить определенные страницы в базу никак нельзя, кроме как скриптом определять, кто заходит на сайт и если это гугл-бот, то выводить без ссылок... Я правильно вас понял?

Мне кажется, что такой подход не может быть правильным, должен быть какой-то более простой вариант, который поможет в решении данной проблемы. Данная проблема не является одиночной, практически на каждом сайте есть ссылки, которые желательно закрывать от гугла и других поисковых систем, поэтому должны быть средства "лечения данной болезни, без хирургического вмешательства".

Кстати, не ответили на вопрос, есть ли лимит на индексацию у гугла.

[Удален]
#6
По вашим словам запретить гуглу вносить определенные страницы в базу никак нельзя, кроме как скриптом определять, кто заходит на сайт и если это гугл-бот, то выводить без ссылок... Я правильно вас понял?

По вашим словам запретить гуглу вносить определенные страницы в базу никак нельзя, кроме как скриптом определять, кто заходит на сайт и если это гугл-бот, то выводить без ссылок... Я правильно вас понял?

Гугл не вносит эти страницы в базу. Просто вы ему показали ссылку на какой-то адрес на вашем сайте, и Гугль, предполагая что по этому адресу что-то есть, показывает эту ссылку в выдаче. Чтобы Гугль не показывал эту ссылку - надо либо как вы сказали выдавать Гугль-боту без ссылок, либо как-то шифровать или еще как прятать ссылки, либо разрешить Гуглю делать запросы к этим адресам (чтобы он убедился, что страниц там нет).

Мне кажется, что такой подход не может быть правильным, должен быть какой-то более простой вариант, который поможет в решении данной проблемы. Данная проблема не является одиночной, практически на каждом сайте есть ссылки, которые желательно закрывать от гугла и других поисковых систем, поэтому должны быть средства "лечения данной болезни, без хирургического вмешательства".

Вы хотите закрыть ссылки? Значит не показывайте их роботу. Другого придумать ничего нельзя. Не совсем понятно, что неразумного вы в этом видите.

Кстати, не ответили на вопрос, есть ли лимит на индексацию у гугла.

Нету.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий