Засорение индекса

12
K
На сайте с 29.01.2013
Offline
116
1357

Подскажите, пожалуйста, если кто знает откуда в индекс яндекса попадают такие странные страницы, например, mysite.ru/page1.html/page2.html где page1.html и page2.html - нормальные, реально существующие страницы.

И вот такие составные из реально существующих страниц и папок url попадают в индекс в огромных количествах. Приходится в robots заносить по одной, чтобы потом удалить и это очень долго.

Хотелось бы понять в чем причина и как с этим бороться?

Заранее спасибо всем откликнувшимся.

orka13
На сайте с 28.03.2011
Offline
102
#1

Вина: неправильные ссылки, неправильная генерация движка, разгильдяйство Яндекса.

Как лечить: делать на сайте редирект с неправильного варианта на правильный.

Продажи шаблона Google-Translate (Гугл Переводчик), скорость: 20 млн ключей/час, с прокси, без API. (http://zennolab.com/discussion/threads/prodazhi-shablona-google-translate.43684/) Переводит ключи, статьи, HTML+PHP файлы (целые сайты, доры) с сохранением верстки!
K
На сайте с 29.01.2013
Offline
116
#2

Движка нет, все страницы html. Неправильные ссылки, даже не знаю, у меня на сайте точно нет. Трудно представить кто на других сайтах может такие ссылки ставить, да еще в таких количествах.

Честно говоря не знаю как сделать редирект с такого количества страниц. Даже не знаю как в robots запретить одной строкой. Может кто подскажет можно ли и как в robots запретить индексацию страниц, которые содержит 2-ва html в 1-м url?

orka13
На сайте с 28.03.2011
Offline
102
#3

1. По адресу: «mysite.ru/page1.html/page2.html» что сайт отдает? Рабочую страницу какую-то, или ошибку 404?

2. Robots не поддерживает шаблонные решение через регулярные выражения, а редирект поддерживает. Так что если, не хотите каждую ошибку в ручную прописывать, то забейте на robots. Ждите пока в тему заглянет специалист по синтаксису редиректов и подскажет правильно решение.

K
На сайте с 29.01.2013
Offline
116
#4

Отдает первую страницу в url без стиля. Спасибо, что дали направление для решения.

T2
На сайте с 24.02.2008
Offline
151
#5

Disallow: .html*

вроде так запретите всё лишнее,

для надёжности проверте в веб мастере как на запрет ненужного, так и на индексацию нужного.

Партнёрка VPN, выплаты 16% - https://c.vpn.how/?p=5442
K
На сайте с 29.01.2013
Offline
116
#6
tanir23:
Disallow: .html*
вроде так запретите всё лишнее,
для надёжности проверте в веб мастере как на запрет ненужного, так и на индексацию нужного.

Не подходит.

U
На сайте с 24.02.2009
Offline
116
#7

скорее потому что ссылки имеют в коде вид не /stranica1.html а stranica1.html

в результате уже со второй страницы ссылка принимает вид

/stranica1.html/stranica1.html

вот тут почитайте http://maviko.net/stati/html/absolute-and-relative-url

T2
На сайте с 24.02.2008
Offline
151
#8
kcusha:
Не подходит.

интересно почему не подошло?

K
На сайте с 29.01.2013
Offline
116
#9
tanir23:
интересно почему не подошло?

При проверке в вебмастере:

Если так Disallow: .html*

Правило начинается не с символа '/' и не с символа '*'

И страницы которые нужно удалить - результат проверки: разрешен.

Если так Disallow: /.html*

все равно не закрывает от индексации ненужные страницы.

---------- Добавлено 28.04.2013 в 23:36 ----------

ufaclub:
скорее потому что ссылки имеют в коде вид не /stranica1.html а stranica1.html

в результате уже со второй страницы ссылка принимает вид
/stranica1.html/stranica1.html

вот тут почитайте http://maviko.net/stati/html/absolute-and-relative-url

Не поняла Вас. Причем тут относительные и абсолютные ссылки.

i-сapitalist
На сайте с 23.03.2009
Offline
53
#10

А так?:

Disallow: /*.html/*

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий