Нету CMS удобных для ПС. Прогерам не удаётся объяснить простейшие моменты. Они считают их ненужными.
Побойтесь дублей...
на него тут ругаются не реже, чем на других:
https://www.1c-bitrix.ru/about/life/photo
https://www.1c-bitrix.ru/about/life/23
https://www.1c-bitrix.ru/about/life/
Про это чёртово SEO они там не слышали, поэтому ваши затраты на правильный напильник превысят все разумные пределы.
Что с яндекс/м дублей в индексе не будет, это потому, что такой контент боту сложно счесть дублями (подсказка дорвейстрою).
Для показа в списке проиндексированных, т.е. по нормальным запросам может искаться, но не показаться с site: или url:
&filter=0 гуглю добавляйте.
Нет, возможно, вы видите результат уже после отфильтровывания. А может и нет.
А мне почему-то попались: 1 / 2 хотя я этим всем уже не занимаюсь несколько лет.
По определению: Дубли == одинаковый контент. Если он с www|слешем и без — это должно бы фильтроваться, но пока они перелопатят свою базу, а им приходится заниматься не одним конкретным вашим сайтом, а именно своими мегапроблемами. (и чтобы ПС отфильтрить ваши дубли, придётся выполнить кучу лишних HTTP обращений)
Реальные олгоритмы могут использовать и вид урла в качестве признака... но создатели кода в паблик не выкладывали.
Если с PHP проблем нет, сделайте разный ответ сервака на
домен/м
домен/м/
домен/м//
и запостите ссылки. ---------- Добавлено 09.01.2016 в 18:22 ---------- Дубли
https://www.1c-bitrix.ru/about/life/гавно
https://www.1c-bitrix.ru/about/life/☻♫♥
https://www.1c-bitrix.ru/about/life/ส้้้
id у вас ассоциируется с новой папкой.
Т.е. т.н. «вложенность урла» == количество слешей?
Ну а меняете зачем?
(это не значит, что я против, просто интересно)
У вас слишком человеческие предположения, что ПС якобы нужно некое единообразие урлов (со слешем или без, с www или без).
А если на каждую следующую скачанную сотню страниц ПС находит 76 дублей, то индексация продолжится?
И запросы бестолковые:
Вот эта хрень в индексе нужна?:
www.google.ru/search?q=site:www.yandex.ru/m
www.yandex.ru/search/?text=url%3Awww.yandex.ru%2Fm*
это всего лишь иллюстрация неидеальности алгоритма фильтрации дублей.
Вот эта самая неидеальность может и по вашему подопечному прокатиться, а потом «развивайте, улучшайте». Вы же не хотите учесть, что видите индекс уже после фильтрации, а в процессе — “никто не видел”. А с www.yandex.ru/m бесконечный процесс (контент неудобный для фильтрации).
ПС определяют дубли не по урлу и не по / в конце.
Дубли — это одинаковый контент (но нет инфы о том, как ПС эту одинаковость проверяет).
(если с моего 50 страничного сайта в индекс залезет 378 страниц, то мне это было бы не важно — если бы ПС не начала чистить свои закрома от того, что сочтёт дублями. При этом нет бесконечного количества ресурсов на идеальность этого процесса, ну типа раз в неделю что-то сверит и дальше побежит)
Вы не понимаете, что обычно вы видите результат уже после отфильтровывания дублей?
ццц.яндекс.ру/м
ццц.яндекс.ру/м/
таким примером долго был. Но там контент плывёт...
Для ПС любое изменение в урле (кроме регистра букв в домене) == другому адресу (это без вопросов, HTTP так устроен)... но фильтрация происходит по другим причинам.
И чтобы не создавать ПС даже минимальных проблем, контент должен быть доступен по единственному урлу. А то лечить дубли на 10000 страничном сайте ПС может слишком долго. Есть пределы количества обращений к сайту, хотя бы поэтому надо отдавать не-дубли.
Посмотрите на параноиков:
http://www.ashmanov.com/marketing/strategy/
HTTP/1.1 301 Moved Permanently
Location: http://www.ashmanov.com/marketing/strategy
https://www.yandex.ru/timeline/Жак_Ив_Кусто/ почему 302, а не 301?
Не понятно?:
Но продолжайте настаивать чтобы вам показали дубли с / и без (строго на конце).
Может ещё скажите, что остальные дубли — не дубли? Очень надо www.yandex.ru/m/?админ
Или есть какое-то принципиальное отличие этого мусора от / на конце?
Но вас никто не заставляет, верьте, что будет всё хорошо, и нигде внутри сайта вы по ошибке не сошлётесь куда не надо.
Ну-ну. Вы не из яндекса?
В запросе он не чувствует / (и таким запросом индексацию не проверяют)
и у него не та скорость, что у гугла
(и может быть вам понравился мусор в гугл.индексе).
У ПС есть задача сократить расход своего железа. Они решают свою задачу, а не вашу. Не понятно? Со своей задачей они справляются часто, а с вашей как получится. Правильно получается не в 100% случаев.
Как правило вы видите результат уже после отфильтровывания дублей (изредка это может сопровождаться вылетом всего сайта).
Возможно вы смотрели раньше, чем бот принял меры. Но подобные меры могли быть и не желательны для вебмастера. Ну пусть пишет боту щукину.
Вы хотите чтобы я 7 минут поковырялся и сделал такое? Сделайте сами.
А то, как обычно настроены серваки — лишь один из возможных для ПС случаев.
Ну щас попостим, посмотрим..
А с параметрами там уже есть со слешем и без.
Если сделать, то бывает.
Со слешем и без него — это разные урлы для ПС.
Если вы чего не видели, то вполне возможно индексация того сцайта для ПС когда-то оказывалась под вопросом. И автоматическое решение проблемы случайно оказалось таким, как хотелось бы вебмастеру, но вероятность этого < 80%.
http://www.yandex.ru/m
http://www.yandex.ru/m?туфта
http://www.yandex.ru/m/?дубль
И со слешем, и без, и хернёй в параметрах http://www.google.ru/search?q=site:www.yandex.ru/m
просто подобные страницы олгоритму трудно счесть дулями — они попадают в индекс с разным контентом.