Посещение поисковиком страниц по «выдуманному» пути

d&d
На сайте с 07.12.2006
Offline
56
d&d
870

Столкнулся с такой проблемой как с Гуглом, так и с Мэйлом.

Есть страница по адресу: site.ru/service.html

В логах заметил, а затем и в выдаче, что поисковик индексирует страницу такого вида:

site.ru/service.html/images/contacts/rent/commerc/и т.д./какая-нибудь страница.html

т.о. страницу service.html считывает как каталог и включает другие каталоги, формируя какой-то бредовый путь. При этом, поисковик целый день может ходить по таким лже-страницам, не и индексировать нормальные страницы.

Я проверял все что можно, но таких адресов у меня нет и никакие скрипы не формируют их.

Вопрос: каким образом такие адреса формируются у поисковика? Это ошибки бота или ошибки со стороны сервера? Или поисковик узнал о таких адресах от кривых парсеров, которые такие адресы выложили в интернет? Или что-то еще?

Из методов борьбы с явлением я выбрал такую тактику: закрытие в роботс.тхт таких путей /service.html/* и установка редиректа на странице, что, мол, если адрес иной от /service.html , то редирект на /service.html

Но такие страницы могут и дальше появляться. Что же, для всех правила прописывать.

Кто-нибудь с таким явлением сталкивался?

V7
На сайте с 27.12.2010
Offline
23
#1

У нас была аналогичная история, когда мы только начинали делать свой проект.

Все было связано с тем, что у нас был линк, который генерировал битую страницу, на которой генерировались битые ссылки.

Самым сложным оказалось найти страницу, на которой была расположена битая ссылка. После этого через WMT удаляли битые линки. В итоге, года полтора боролись с битыми линками.

E
На сайте с 21.09.2009
Offline
283
#2
d&d:
Или поисковик узнал о таких адресах от кривых парсеров, которые такие адресы выложили в интернет?

Он скорее всего узнал кривой адрес изх СМС сайта. Скачайте и проверте ссылки сайта.

SM
На сайте с 07.06.2012
Offline
30
#3
d&d:
Столкнулся с такой проблемой как с Гуглом, так и с Мэйлом.
Есть страница по адресу: site.ru/service.html
В логах заметил, а затем и в выдаче, что поисковик индексирует страницу такого вида:
site.ru/service.html/images/contacts/rent/commerc/и т.д./какая-нибудь страница.html
т.о. страницу service.html считывает как каталог и включает другие каталоги, формируя какой-то бредовый путь. При этом, поисковик целый день может ходить по таким лже-страницам, не и индексировать нормальные страницы.

Или страница с битыми ссылками, или проблема, что более вероятно, в относительных или абсолютных путях внутри хтмл-кода. Т.е. поисковик пляшет не от корня сайта, а от текущей страницы...

Solmyr
На сайте с 10.09.2007
Offline
501
#4

Внутренние ссылки на сайте без слеша в начале.

А тот кто делал ЧПУ этого не понял.

Diversant
На сайте с 29.03.2006
Offline
300
#5

Больше похоже что дорвей залили

87793
На сайте с 12.09.2009
Offline
661
#6
Solmyr:
Внутренние ссылки на сайте без слеша в начале.

Ну так у меня на сайтах все внутренние ссылки без слэша в начале.

А проблем, подобных описываемой, нету.

Что не так? 😂

Наше дело правое - не мешать левому!
d&d
На сайте с 07.12.2006
Offline
56
d&d
#7

Спасибо, что откликнулись.

Генератора линков у меня нет, посему ничего не может такое нагенерить. Проверял линки через SiteMap Generator, но ничего подобного не было. Ко всему прочему, в Яндексе тоже не наблюдаю подобного. Сначала было с Гуглом, потом заметил с Мэйлом.

Парадокс в том, что в этот чудовишный урл втыкаются имена каталогов, ссылки на которых нет на странице. Т.е. пребывая на странице site.ru/service.html поисковик не сможет узнать про каталоги «rent/commerc/» (ссылок на них просто нет на странице), но он их вставляет в урл.

Все же склоняюсь к мысли, что кто-то сайт криво парсил и поисковик приходит именно с этих помоек.

JD
На сайте с 08.12.2006
Offline
72
#8

Скачайне Xenu, как вам выше сказали, и прогоните по сайту. Он вам покажет, если ли страницы.

Возможно, у вас когда-то такая страница была (какая-то такая), а теперь, насколько я понял, сайт открывает сылку site.ru/service.html/images/contacts/rent/commerc/ без 404 или редиректа. Вот они у вас и плодятся.

У меня такое тоже было, тоже год примерно боролся. Пришлось проверять при обращении URL, вырезать ненужное и перенаправлять на правильную страницу.

Все из-за того, что www. example .com/бла-бла-бла-всякий-мусор/page.htlm открывалась так же как и www. example .com/page.htlm

И ошибка-то была на сайте всего несколько часов, а потом сколько сил было угрохано, чтобы ее исправить!

d&d
На сайте с 07.12.2006
Offline
56
d&d
#9
john doe:
Скачайне Xenu, как вам выше сказали, и прогоните по сайту. Он вам покажет, если ли страницы.

Проверил программой Xenu — ничего не нашел, ни подобных уродливых адресов, ни битых ссылок.

В общем — чудеса.

Короче говоря, прописал в роботс для всех ботов правило:

Disallow: *.html/*

По-хорошему, правило в htaccess нужно прописывать, чтобы редирект срабатывал при посещении страниц вида site.ru/service.html/images/contacts/rent/commerc/ на site.ru/service.html , однако пока ограничусь первым вариантом.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий