Все вопросы по robots.txt - 2

M
На сайте с 05.08.2013
Offline
50
#351

Подскажите, пожалуйста

У меня сайт, где люди скачивают файлы. Идет статья, дальше ссылка на отдельную страницу, где только ссылка на скачку и немного описания. Все эти страницы в отдельной папке.

Например:

******.ru/statja, далее человек переходит на ******.ru/dl/statja.html

Я запретил индексацию папке dl:

User-agent: *

Disallow: /dl/

По сути теперь я могу забить на оптимизацию текста на странице /dl/statja.html? Пусть там абзацы отделены обычными br, без всяких ol ul списков и прочих тегов, пусть будет даже дубль контент или копипаст? Это никак не отразится на общем сео сайта?

R
На сайте с 15.11.2013
Offline
83
#352

Приветствую форумчане! Подскажите как быть со страницами типа  engine/go.php, движок дле, в htacces стоят редиректы с index.php на сайт, а в robots.txt  Disallow: /engine/ недавно заметил что гугол проиндексировал 7 страниц не смотря на запрет в  robots.txt, я так понимаю страницы типа  engine/go.php это дубли, подскажите как сделать чтобы гугол не индексировал их?

I7
На сайте с 17.09.2010
Offline
93
#353

В интернет-магазине есть карточки товаров с url https://site.ru/shop/11852 и есть большое кол-во товаров с двойным url  типа https://site.ru/shop/11900-345 (страницы уникальные, но нужно запретить их все равно от индексации). Каким образом можно оставить страницы с обычным id и запретить с двойным url? Спасибо.

6nick9
На сайте с 05.05.2014
Offline
67
#354
Ii7Ii7I #:

В интернет-магазине есть карточки товаров с url https://site.ru/shop/11852 и есть большое кол-во товаров с двойным url  типа https://site.ru/shop/11900-345 (страницы уникальные, но нужно запретить их все равно от индексации). Каким образом можно оставить страницы с обычным id и запретить с двойным url? Спасибо.

Через метатеги.

Zegeberg
На сайте с 30.09.2010
Offline
282
#355
Есть разделы и в них категории и товары, сейчас стоит в роботс так (пример)

Disallow: /zhenskiye-hudi/*
...
Allow: /zhenskiye-hudi/sfinksy/$

Надо разрешить везде sfinksy, во всех разделах..

Вариант

Disallow: /zhenskiye-hudi/*
...
Allow: /*/sfinksy/$

Не работает, в женских худи тогда Сфинксы запрещены, исключение не идет.. Как Сфинксов везде разрешить, но только до /  то есть без товаров? Спасибо. 

Ссылки с форумов, блогов и соц сетей ( https://forumok.com/p/c1710b6b/ ) Антибот ( https://antibot.cloud/?ref=15262 )
Brat_Sergij
На сайте с 26.11.2015
Offline
337
#356

Коллеги как заблочить боту доступ к сайту? В логах он щемится таким образом:

34.91.178.166 - - [06/Dec/2020:00:17:29 +0300] "GET / HTTP/1.1" 301 301 "-" "newspaper/0.2.8" 2400 0:0

34.91.178.166 - - [06/Dec/2020:00:17:29 +0300] "GET / HTTP/1.1" 200 12149 "-" "newspaper/0.2.8" 4502 6667:0

34.91.178.166 - - [06/Dec/2020:00:17:29 +0300] "GET / HTTP/1.1" 200 12149 "-" "newspaper/0.2.8" 4111 3333:0

34.91.178.166 - - [06/Dec/2020:00:17:29 +0300] "GET / HTTP/1.1" 301 301 "-" "newspaper/0.2.8" 2140 3333:0

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET / HTTP/1.1" 200 12149 "-" "newspaper/0.2.8" 4137 3334:0

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /feed HTTP/1.1" 301 305 "-" "newspaper/0.2.8" 2141 0:3333

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /feeds HTTP/1.1" 301 306 "-" "newspaper/0.2.8" 4561 3333:0

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /rss HTTP/1.1" 301 304 "-" "newspaper/0.2.8" 2072 3333:0

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /feed HTTP/1.1" 200 3988 "-" "newspaper/0.2.8" 31634 20000:6666

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /feeds HTTP/1.1" 404 25529 "-" "newspaper/0.2.8" 116113 76666:26666

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /rss HTTP/1.1" 301 - "-" "newspaper/0.2.8" 104590 66667:10000

34.91.178.166 - - [06/Dec/2020:00:17:30 +0300] "GET /feed HTTP/1.1" 200 3988 "-" "newspaper/0.2.8" 23145 13333:6667

В robots.txt прописал:

User-agent: newspaper/0.2.8

Disallow: /

однако все равно он не блокируется и получает ответ 200 на  GET /feed HTTP/1.1 и  GET / HTTP/1.1.

P.S. Просьба не советовать блочить его по IP, потому что у него их целая сеть.

EN
На сайте с 05.12.2004
Offline
247
#357

Brat_Sergij #:

P.S. Просьба не советовать блочить его по IP, потому что у него их целая сеть.

А если по маске подсети?

Доступные Бурж ссылки ( https://www.gofuckbiz.com/showthread.php?t=58214 )
Brat_Sergij
На сайте с 26.11.2015
Offline
337
#358
ExclusivoN #:

А если по маске подсети?

Слишком обширно получается, велика вероятность зацепить реальных посетителей. Надо именно через robots

GG
На сайте с 23.10.2019
Offline
10
#359
Brat_Sergij #:

Слишком обширно получается, велика вероятность зацепить реальных посетителей. Надо именно через robots

А если через .htaccess сделать? У меня эта пакость заблокирована вот так:

<IfModule mod_rewrite.c>

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^newspaper/0\.2\.8 [NC]

RewriteRule ^.* - [F]

</IfModule>

Brat_Sergij
На сайте с 26.11.2015
Offline
337
#360
GabbaGabbaMAn #:

А если через .htaccess сделать? У меня эта пакость заблокирована вот так:

<IfModule mod_rewrite.c>

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^newspaper/0\.2\.8 [NC]

RewriteRule ^.* - [F]

</IfModule>

Надо попробовать... Главное, чтоб никого лишнего не зацепило  )

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий