Засорение индекса

116

kcusha

28 апреля 2013, 11:16

1386

Подскажите, пожалуйста, если кто знает откуда в индекс яндекса попадают такие странные страницы, например, mysite.ru/page1.html/page2.html где page1.html и page2.html - нормальные, реально существующие страницы.

И вот такие составные из реально существующих страниц и папок url попадают в индекс в огромных количествах. Приходится в robots заносить по одной, чтобы потом удалить и это очень долго.

Хотелось бы понять в чем причина и как с этим бороться?

Заранее спасибо всем откликнувшимся.

102

orka13

28 апреля 2013, 14:53

#1

Вина: неправильные ссылки, неправильная генерация движка, разгильдяйство Яндекса.

Как лечить: делать на сайте редирект с неправильного варианта на правильный.

Продажи шаблона Google-Translate (Гугл Переводчик), скорость: 20 млн ключей/час, с прокси, без API. (http://zennolab.com/discussion/threads/prodazhi-shablona-google-translate.43684/) Переводит ключи, статьи, HTML+PHP файлы (целые сайты, доры) с сохранением верстки!

K

116

kcusha

28 апреля 2013, 15:46

#2

Движка нет, все страницы html. Неправильные ссылки, даже не знаю, у меня на сайте точно нет. Трудно представить кто на других сайтах может такие ссылки ставить, да еще в таких количествах.

Честно говоря не знаю как сделать редирект с такого количества страниц. Даже не знаю как в robots запретить одной строкой. Может кто подскажет можно ли и как в robots запретить индексацию страниц, которые содержит 2-ва html в 1-м url?

301 редирект и запрет Можно ли такое сделать Запрет страницы для индексации

102

orka13

28 апреля 2013, 16:40

#3

1. По адресу: «mysite.ru/page1.html/page2.html» что сайт отдает? Рабочую страницу какую-то, или ошибку 404?

2. Robots не поддерживает шаблонные решение через регулярные выражения, а редирект поддерживает. Так что если, не хотите каждую ошибку в ручную прописывать, то забейте на robots. Ждите пока в тему заглянет специалист по синтаксису редиректов и подскажет правильно решение.

Robots.txt отдает 404 ошибку. Неправильно изменил URL'ы? Нужна помощь по регулярным

K

116

kcusha

28 апреля 2013, 17:15

#4

Отдает первую страницу в url без стиля. Спасибо, что дали направление для решения.

160

tanir23

28 апреля 2013, 17:25

#5

Disallow: .html*

вроде так запретите всё лишнее,

для надёжности проверте в веб мастере как на запрет ненужного, так и на индексацию нужного.

K

116

kcusha

28 апреля 2013, 18:26

#6

tanir23:
Disallow: .html*
вроде так запретите всё лишнее,
для надёжности проверте в веб мастере как на запрет ненужного, так и на индексацию нужного.

Не подходит.

U

116

ufaclub

28 апреля 2013, 18:31

#7

скорее потому что ссылки имеют в коде вид не /stranica1.html а stranica1.html

в результате уже со второй страницы ссылка принимает вид

/stranica1.html/stranica1.html

вот тут почитайте http://maviko.net/stati/html/absolute-and-relative-url

160

tanir23

28 апреля 2013, 18:49

#8

kcusha:
Не подходит.

интересно почему не подошло?

K

116

kcusha

28 апреля 2013, 19:31

#9

tanir23:
интересно почему не подошло?

При проверке в вебмастере:

Если так Disallow: .html*

Правило начинается не с символа '/' и не с символа '*'

И страницы которые нужно удалить - результат проверки: разрешен.

Если так Disallow: /.html*

все равно не закрывает от индексации ненужные страницы.

---------- Добавлено 28.04.2013 в 23:36 ----------

ufaclub:
скорее потому что ссылки имеют в коде вид не /stranica1.html а stranica1.html

в результате уже со второй страницы ссылка принимает вид
/stranica1.html/stranica1.html

вот тут почитайте http://maviko.net/stati/html/absolute-and-relative-url

Не поняла Вас. Причем тут относительные и абсолютные ссылки.

Исключенные страницы, "левые" символы Все вопросы по robots.txt Вылетел сайт из индекса

53

i-сapitalist

28 апреля 2013, 19:42

#10

А так?:

Disallow: /*.html/*

Все что нужно знать о DDоS-атаках грамотному менеджеру

Вышел новый Яндекс Браузер с YandexGPT и YandexART