mail.ru, корявая индексация и 301 редирект

A1
На сайте с 12.02.2013
Offline
58
1218

На днях стал делать защиту от дублей на сайте. После запуска защиты на следующий день увидел, что полностью упал трафик с mail.ru. Стал искать причины, оказалось, что были неверно проиндексированы страницы сайта поисковиком mail.

Вот пример:

Правильная страница: site.ru/index.php?page=view&id=2

Неправильная страница: site.ru/index.php?id=2&page=view

Я понимаю, что где-то должен был взять поисковик такие корявые url, но сайт не мог их точно сформировать. Но сайт в mail только по корявым адресам, и по правильным его даже в индексе нет (походу он видит правильные url, а распознает их как корявые) Мог ли поисковик перековеркать при индексации? Это проблема именно с mail, другие поисковики нормально индексируют, и такие корявые url нигде не подхватили.

Что делать то? 301 редирект на правильные страницы? Как к 301 относится mail.ru и быстро ли делает клей? Были подобные опыты?

bbon
На сайте с 01.04.2006
Offline
127
#1
acril1994:
Правильная страница: site.ru/index.php?page=view&id=2
Неправильная страница: site.ru/index.php?id=2&page=view

Оба урла, согласно rfc3986, указывают на одну и ту же страницу, ибо

The query component contains non-hierarchical data that, along with data in the path component

Последовательность расположения параметров в query string никакой роли не играет. А если, с точки зрения какого-либо поисковика, приведенные выше урлы указывают на разные страницы - то гнать ср@ной метлой оттуда программистов.

Поэтому, mail.ru поступил в полном согласии со стандартом, т.е. - как захотел, и это правильно.

Решением проблемы возможных дублей (дублей - с точки зрения теоретически кривых реализаций поисковых машин) является отказ от query string в индексируемой части сайта и использование урлов с вопросиком только для служебных целей (в редактуре, либо поиске по сайту)

C
На сайте с 07.05.2010
Offline
234
#2
acril1994:
Вот пример:
Правильная страница: site.ru/index.php?page=view&id=2
Неправильная страница: site.ru/index.php?id=2&page=view

Аналогичная ситуация. mail.ru вообще кучу несуществующих страниц "создает". В свое время так и не справился с этим, просто в robots.txt запретил к индексации (вышел длинный список, но что поделать).

A1
На сайте с 12.02.2013
Offline
58
#3

Фуф, я не один такой. Вообще по mail в сети ничего путного не пишут, будто им никто не ищет. И оно верно, у большинства он больше 5% трафика не дает. Вот с неделю назад он мне сюрприз приподнес: обогнал Google и дал 3000 человек в сутки по одному ключу. Ключ был сезонный, сейчас mail опять упал, но все же дает около 20% трафика, поэтому не считаться с ним никак нельзя и запретить к индексации существующие страницы я тоже не могу, так как у них уже свой рейтинг у mail.

---------- Добавлено 22.08.2013 в 17:11 ----------

Я тоже пришел к похожему мнению, проанализировав выдачу mail. Ваша ссылка на стандарты очень интересна. Значит, mail все же видит url в нормальном порядке, индексирует их уже в том, в каком хочет. И правильные url не индексирует как копии (в выдаче по моему сайту были только url с неправильным порядком, в том, в каком он хотел, а в правильном порядке не было). Ладно, он сам по себе там, и дублей уже не наплодит, работая по своему алгоритму, так как все url преобразовывает в свой новый порядок.

А как к порядку в URL относится Google и Яндекс?

А оказывается все это называется "Нормализация URL для предотвращения дублей". Век живи век учись. Производится она поисковиками. http://ru.wikipedia.org/wiki/Нормализация_URL

Вот таки дела. Яндекс, например, всегда мой сайт индексирует без www.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий