Это не дичь, так говорят люди /ru/forum/889972
но не всегда объясняют причины, поэтому оно и кажется дичью.
(а вас программеров не поймешь нихрена)
Но ведь ещё и делают так www.google.ru/search?q=site%3Aunmedia.ru+seo
И что-то смутно вспоминаются объяснения, что при типичных настройках серваков так меньше шансов нопортачить... с такими примитивными пустяками как всего-то какой-то слеш.
А создатели CMS просто не пытаются решить проблему дублей в общем виде и обычно вспоминают про каноникалы, что лишь увеличивает траф и замедляет индексацию.
Браузер делают запрос
GET / HTTP/1.1 Host: inger.com.ua
ПС часто не показывают аналогично, чаще по релевантности, но не всегда. И яндекс в этом не-показывании действует слишком похоже на гугл.
Тест был /ru/forum/comment/9246487
В индексе гугл покажет все страницы с &filter=0 www.google.ru/search?q=site:www.allave.ru/Polis.html&filter=0
а яндекс нет https://yandex.ru/search/?text=url%3Awww.allave.ru%2FPolis.html
только по уникальной фразе
https://yandex.ru/search/?text=url%3Awww.allave.ru%2FPolis.html+%D0%BA%D1%83%D0%BF%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9
https://yandex.ru/search/?text=url%3Awww.allave.ru%2FPolis.html+%D1%81%D0%B5%D0%B7%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5
(отдельной темой являются точные определения: что значит в индексе, поскольку в выдаче бывало то, чего нет в индексе и наоборот)
Тест:
http://slash.500mb.net/w//
http://slash.500mb.net/w/
http://slash.500mb.net/w
вчера начался, поэтому уже одна в индексе гугла
А некоторые этого не знали и наделали урлов www.ashmanov.com/services
А может лучше Финальным сегментом строки должен быть .php ?
/ru/forum/optimization-practices/beginners-questions 200 Ok
Нету CMS удобных для ПС. Прогерам не удаётся объяснить простейшие моменты. Они считают их ненужными.
Побойтесь дублей...
на него тут ругаются не реже, чем на других:
https://www.1c-bitrix.ru/about/life/photo
https://www.1c-bitrix.ru/about/life/23
https://www.1c-bitrix.ru/about/life/
Про это чёртово SEO они там не слышали, поэтому ваши затраты на правильный напильник превысят все разумные пределы.
Что с яндекс/м дублей в индексе не будет, это потому, что такой контент боту сложно счесть дублями (подсказка дорвейстрою).
Для показа в списке проиндексированных, т.е. по нормальным запросам может искаться, но не показаться с site: или url:
&filter=0 гуглю добавляйте.
Нет, возможно, вы видите результат уже после отфильтровывания. А может и нет.
А мне почему-то попались: 1 / 2 хотя я этим всем уже не занимаюсь несколько лет.
По определению: Дубли == одинаковый контент. Если он с www|слешем и без — это должно бы фильтроваться, но пока они перелопатят свою базу, а им приходится заниматься не одним конкретным вашим сайтом, а именно своими мегапроблемами. (и чтобы ПС отфильтрить ваши дубли, придётся выполнить кучу лишних HTTP обращений)
Реальные олгоритмы могут использовать и вид урла в качестве признака... но создатели кода в паблик не выкладывали.
Если с PHP проблем нет, сделайте разный ответ сервака на
домен/м
домен/м/
домен/м//
и запостите ссылки. ---------- Добавлено 09.01.2016 в 18:22 ---------- Дубли
https://www.1c-bitrix.ru/about/life/гавно
https://www.1c-bitrix.ru/about/life/☻♫♥
https://www.1c-bitrix.ru/about/life/ส้้้
id у вас ассоциируется с новой папкой.
Т.е. т.н. «вложенность урла» == количество слешей?
Ну а меняете зачем?
(это не значит, что я против, просто интересно)
У вас слишком человеческие предположения, что ПС якобы нужно некое единообразие урлов (со слешем или без, с www или без).
А если на каждую следующую скачанную сотню страниц ПС находит 76 дублей, то индексация продолжится?
И запросы бестолковые:
Вот эта хрень в индексе нужна?:
www.google.ru/search?q=site:www.yandex.ru/m
www.yandex.ru/search/?text=url%3Awww.yandex.ru%2Fm*
это всего лишь иллюстрация неидеальности алгоритма фильтрации дублей.
Вот эта самая неидеальность может и по вашему подопечному прокатиться, а потом «развивайте, улучшайте». Вы же не хотите учесть, что видите индекс уже после фильтрации, а в процессе — “никто не видел”. А с www.yandex.ru/m бесконечный процесс (контент неудобный для фильтрации).
ПС определяют дубли не по урлу и не по / в конце.
Дубли — это одинаковый контент (но нет инфы о том, как ПС эту одинаковость проверяет).
(если с моего 50 страничного сайта в индекс залезет 378 страниц, то мне это было бы не важно — если бы ПС не начала чистить свои закрома от того, что сочтёт дублями. При этом нет бесконечного количества ресурсов на идеальность этого процесса, ну типа раз в неделю что-то сверит и дальше побежит)
Вы не понимаете, что обычно вы видите результат уже после отфильтровывания дублей?
ццц.яндекс.ру/м
ццц.яндекс.ру/м/
таким примером долго был. Но там контент плывёт...
Для ПС любое изменение в урле (кроме регистра букв в домене) == другому адресу (это без вопросов, HTTP так устроен)... но фильтрация происходит по другим причинам.
И чтобы не создавать ПС даже минимальных проблем, контент должен быть доступен по единственному урлу. А то лечить дубли на 10000 страничном сайте ПС может слишком долго. Есть пределы количества обращений к сайту, хотя бы поэтому надо отдавать не-дубли.
Посмотрите на параноиков:
http://www.ashmanov.com/marketing/strategy/
HTTP/1.1 301 Moved Permanently
Location: http://www.ashmanov.com/marketing/strategy
https://www.yandex.ru/timeline/Жак_Ив_Кусто/ почему 302, а не 301?
Не понятно?:
Но продолжайте настаивать чтобы вам показали дубли с / и без (строго на конце).
Может ещё скажите, что остальные дубли — не дубли? Очень надо www.yandex.ru/m/?админ
Или есть какое-то принципиальное отличие этого мусора от / на конце?
Но вас никто не заставляет, верьте, что будет всё хорошо, и нигде внутри сайта вы по ошибке не сошлётесь куда не надо.
Ну-ну. Вы не из яндекса?
В запросе он не чувствует / (и таким запросом индексацию не проверяют)
и у него не та скорость, что у гугла
(и может быть вам понравился мусор в гугл.индексе).
У ПС есть задача сократить расход своего железа. Они решают свою задачу, а не вашу. Не понятно? Со своей задачей они справляются часто, а с вашей как получится. Правильно получается не в 100% случаев.
Как правило вы видите результат уже после отфильтровывания дублей (изредка это может сопровождаться вылетом всего сайта).