Настройка .htaccess & robots.txt

12
Toan
На сайте с 06.08.2008
Offline
214
634

Хороший сайт попал под санкции Яндекса, изучаю вот что осталось в индексе. Сайт работает на старом самописном движке, генерирующем дублированный контент (в основном категории). С дублями удалось разобраться, но Яндекс непредсказуем :)

Собственно, проблема в том, что проиндексированы страницы типа site.ru/cat - именно без "/" на конце. В robots.txt закрыл все страницы типа site.ru/cat1/cat2/ вот так

Disallow: /20*/*/$ - в качестве категорий используются год + месяц, при этом доступ роботов для индексации конечных страниц /20*/*/text.html открыт

Но эта конструкция все-таки разрешает индексировать страницы типа site.ru/20* и site.ru/20*/* что Яндекс успешно и сделал.

Помогите пожалуйста подкорректировать robots.txt или же настроить редирект в .htaccess для исключения из индекса страниц типа /20* и /20*/* без "/" на конце.

Простейший способ сбора НК ключей (http://mutagen.ru/?r=55527), дающих трафик. Всего 30 рублей за 100 шт. А также автоматическая группировка (http://semparser.ru/p/1506) запросов по страницам для эффективного продвижения + экономия на текстах.
cheredov
На сайте с 07.04.2011
Offline
125
#1
Toan:
Помогите пожалуйста подкорректировать robots.txt или же настроить редирект в .htaccess для исключения из индекса страниц типа /20* и /20*/* без "/" на конце.

Disallow: /20*/*/

Иван Чередов (http://ivan.cheredov.com/about/)
Toan
На сайте с 06.08.2008
Offline
214
#2
cheredov:
Disallow: /20*/*/

К сожалению, такая команда запретит к индексации все страницы, имеющие в адресе /20*/*/ - в т. ч. и страницы с записями типа /20*/*/post.html. Мне необходимо лишь закрыть (или же средиректить) страницы категорий типа /20* и /20*/*

cheredov
На сайте с 07.04.2011
Offline
125
#3
Toan:
К сожалению, такая команда запретит к индексации все страницы, имеющие в адресе /20*/*/ - в т. ч. и страницы с записями типа /20*/*/post.html. Мне необходимо лишь закрыть (или же средиректить) страницы категорий типа /20* и /20*/*

Disallow: /20*/*$

а так?

Toan
На сайте с 06.08.2008
Offline
214
#4
cheredov:
Disallow: /20*/*$
а так?

Опять же запрещены к индексации страницы типа site.ru/2011/08/text.html - проверяю через Яндекс.Вебмастер.

Возможно, поможет хитрый 301-й редирект, может кто-нибудь подскажет как его сделать?

cheredov
На сайте с 07.04.2011
Offline
125
#5
Toan:
необходимо лишь закрыть (или же средиректить) страницы категорий типа /20* и /20*/*

Вы понимаете, что * - это любая последовательность символов. Вам что надо то?

kimberlit
На сайте с 13.03.2007
Offline
370
#6
cheredov:
Disallow: /20*/*$

Глупость последовательности *$ нужно объяснять?

cheredov
На сайте с 07.04.2011
Offline
125
#7

Можно запретить цифры например

cheredov добавил 09.08.2011 в 21:18

kimberlit:
Глупость последовательности *$ нужно объяснять?

не нужно, что задали в условии то и написал )))

cheredov добавил 09.08.2011 в 21:19

строка заканчивается чем угодно - офигенное правило я написал конечно, но что ТС надо то?

kimberlit
На сайте с 13.03.2007
Offline
370
#8

Суть идеи слабо уловил. Может радикально:

Allow: */$

Allow: *.html

Disallow: /

Toan
На сайте с 06.08.2008
Offline
214
#9

kimberlit, слишком радикально (:

Суть в том, чтобы сделать что-то со страницами типа site.ru/cat - они есть в индексе Яндекса, не знаю откуда он взял, но из-за них сайт получил санкции. Сам движок создает УРЛы вида site.ru/cat/ со "/" на конце.

Я запретил к индексации страницы рубрик/категорий/годов и пр, которые имеют вид site.ru/cat1/ и site.ru/cat1/cat2/ - где cat1 год создания записи, cat2 - месяц. Сама страница с записью имеет вид site.ru/cat1/cat2/title.html.

Собственно, задача состоит в том, чтобы запретить к индексации страницы вида

а) site.ru/cat1/ и site.ru/cat1/cat2/ с "/" на конце - это уже сделано командой Disallow: /20*/*/$ - но для общей нотификации обозначим ее Disallow: /*/*/$

б) site.ru/cat1 и site.ru/cat1/cat2 - вот с этим возникли проблемы.

При этом страницы с записями типа site.ru/cat1/cat2/title.html необходимо разрешить индексировать. Сам без понятия как это можно реализовать в robots.txt, на ум приходит только 301-й редирект с site.ru/cat1/ на site.ru/cat1 - но в лоб он не работает.

kimberlit
На сайте с 13.03.2007
Offline
370
#10

Toan, объяснять ты не умеешь. Фиг его знает что тебе надо.

Запретить все рубрики, но оставить страницы .html?

Allow: /$

Allow: *.html

Disallow: /

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий