robot.txt запрет индексации директории по маске

R
На сайте с 06.02.2015
Offline
18
1362

Не так давно был взломан сайт. Я все вычистил, но где-то остались какие-то непонятные вещи. периодически в индексацию попадают такие страницы, как -

http://cleanqueen.ru/12187swajpet/vill-du

http://cleanqueen.ru/12187cdn-cgi/l/email-protection

http://cleanqueen.ru/12187blogg/daerfoer-gillar-alla-leonardo-dicaprio

и т.д.

Смысл в том, что все адреса начинаются с одних и тех же цифр 12187. В данный момент я ищу новые пути и отдельно блочу их в robot.txt

Disallow: /12187start-thread/

Disallow: /12187img/

Disallow: /12187voting/

Disallow: /12187profile/

Disallow: /12187forum/

Disallow: /12187send-message/

Disallow: /12187tag/

Disallow: /12187qa/

Disallow: /12187komigen/

Disallow: /12187we-change/

Disallow: /12187abuse/

Скажите, а можно как-то заблокировать эти директории по маске, типа

Disallow: /12187* или как-то так)

Спасибо.

N4
На сайте с 27.07.2008
Offline
89
#1

Disallow: /12187*

проверить:

https://webmaster.yandex.com/tools/robotstxt/

хотя disallow запрещает индексацию страниц, но это не значит, что робот их не парсит.

чтобы запретить доступ к этим страницам, лучше по маске поставить ответ 404

типа

if(strpos($_SERVER['REQUEST_URI'],'/12187')!==false) exit(http_response_code(404));

Интернет-магазин: SP.Easy.Shop 1.4
[Удален]
#2
rmfalx:


Disallow: /12187*

Спасибо.

Так будет нормально, конечно избавьтесь от создания таких страниц как можно быстрее

R
На сайте с 06.02.2015
Offline
18
#3
Roshan:
Так будет нормально, конечно избавьтесь от создания таких страниц как можно быстрее

Спасибо! Да я никак не могу понять откуда это берется. Дело в том, что весь код почистил. Все такие ссылки ведут на 404 страницу. Но сами ссылки формируются. Я айболитом тыщу раз проверял все, но пока результатов нет.

Malcolm
На сайте с 02.05.2007
Offline
119
#4

Звездочку в конце строки не обязательно, достаточно сделать так

Disallow: /12187

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий