богоносец

богоносец
Рейтинг
776
Регистрация
30.01.2007

Нету CMS удобных для ПС. Прогерам не удаётся объяснить простейшие моменты. Они считают их ненужными.

Аня1992:
Да выбрала битрикс, но пока специалиста не нашла ))

Побойтесь дублей...

на него тут ругаются не реже, чем на других:

https://www.1c-bitrix.ru/about/life/photo

https://www.1c-bitrix.ru/about/life/23

https://www.1c-bitrix.ru/about/life/

Про это чёртово SEO они там не слышали, поэтому ваши затраты на правильный напильник превысят все разумные пределы.

Что с яндекс/м дублей в индексе не будет, это потому, что такой контент боту сложно счесть дублями (подсказка дорвейстрою).

ПС в запросе / не чувствуют

не только для поиска но и для индексации?

Для показа в списке проиндексированных, т.е. по нормальным запросам может искаться, но не показаться с site: или url:

&filter=0 гуглю добавляйте.

genjnat:
Вы пишите в индексе их нет потому что ПС уже отфильтровали.

Нет, возможно, вы видите результат уже после отфильтровывания. А может и нет.

genjnat:
дубли www, хоть бы можно увидеть в Гугле, по крайней мере для молодых сайтов. Еще недавно можно было и в Яндексе.
Сейчас, на 100% не настаиваю, но на практике уже больше года не встречал.

А мне почему-то попались: 1 / 2 хотя я этим всем уже не занимаюсь несколько лет.

традиционно исходят из того, что со / и без, для ПС дубли

По определению: Дубли == одинаковый контент. Если он с www|слешем и без — это должно бы фильтроваться, но пока они перелопатят свою базу, а им приходится заниматься не одним конкретным вашим сайтом, а именно своими мегапроблемами. (и чтобы ПС отфильтрить ваши дубли, придётся выполнить кучу лишних HTTP обращений)

Реальные олгоритмы могут использовать и вид урла в качестве признака... но создатели кода в паблик не выкладывали.

Если с PHP проблем нет, сделайте разный ответ сервака на

домен/м

домен/м/

домен/м//

и запостите ссылки.

---------- Добавлено 09.01.2016 в 18:22 ----------

Дубли

https://www.1c-bitrix.ru/about/life/23

https://www.1c-bitrix.ru/about/life/photo

https://www.1c-bitrix.ru/about/life/гавно

https://www.1c-bitrix.ru/about/life/☻♫♥

https://www.1c-bitrix.ru/about/life/ส้้้

id у вас ассоциируется с новой папкой.

Т.е. т.н. «вложенность урла» == количество слешей?

Ну а меняете зачем?

(это не значит, что я против, просто интересно)

У вас слишком человеческие предположения, что ПС якобы нужно некое единообразие урлов (со слешем или без, с www или без).

А если на каждую следующую скачанную сотню страниц ПС находит 76 дублей, то индексация продолжится?

И запросы бестолковые:

ПС в запросе не только / не чувствуют... и могут не показать то, чего у них есть в индексе.

Вот эта хрень в индексе нужна?:

www.google.ru/search?q=site:www.yandex.ru/m

www.yandex.ru/search/?text=url%3Awww.yandex.ru%2Fm*

это всего лишь иллюстрация неидеальности алгоритма фильтрации дублей.

Вот эта самая неидеальность может и по вашему подопечному прокатиться, а потом «развивайте, улучшайте». Вы же не хотите учесть, что видите индекс уже после фильтрации, а в процессе — “никто не видел”. А с www.yandex.ru/m бесконечный процесс (контент неудобный для фильтрации).

ПС определяют дубли не по урлу и не по / в конце.

Дубли — это одинаковый контент (но нет инфы о том, как ПС эту одинаковость проверяет).

(если с моего 50 страничного сайта в индекс залезет 378 страниц, то мне это было бы не важно — если бы ПС не начала чистить свои закрома от того, что сочтёт дублями. При этом нет бесконечного количества ресурсов на идеальность этого процесса, ну типа раз в неделю что-то сверит и дальше побежит)

Есть примеры, сайта индексируемого без (или с слешами), и что бы одна/две/пять страниц проиндексировались с слешами (или без)?

В данном случае я не настаиваю что подобного не бывает, но на практике тоже не видел.

Не воспринимайте в штыки, но просто, если и таких примеров никто привести не сможет, то на чем тогда держится уверенность что для ПС это разные страницы?

Вы не понимаете, что обычно вы видите результат уже после отфильтровывания дублей?

ццц.яндекс.ру/м

ццц.яндекс.ру/м/

таким примером долго был. Но там контент плывёт...

Для ПС любое изменение в урле (кроме регистра букв в домене) == другому адресу (это без вопросов, HTTP так устроен)... но фильтрация происходит по другим причинам.

И чтобы не создавать ПС даже минимальных проблем, контент должен быть доступен по единственному урлу. А то лечить дубли на 10000 страничном сайте ПС может слишком долго. Есть пределы количества обращений к сайту, хотя бы поэтому надо отдавать не-дубли.

Посмотрите на параноиков:

http://www.ashmanov.com/marketing/strategy/

HTTP/1.1 301 Moved Permanently

Location: http://www.ashmanov.com/marketing/strategy

https://www.yandex.ru/timeline/Жак_Ив_Кусто/ почему 302, а не 301?

Не понятно?:

Как правило вы видите результат уже после отфильтровывания дублей
и какие ваши риски от неидеальности алгоритмов — точно вы не знаете.

Но продолжайте настаивать чтобы вам показали дубли с / и без (строго на конце).

genjnat:
Нет там ни одного примера со слешем на конце, а обсуждаем именно его

Может ещё скажите, что остальные дубли — не дубли? Очень надо www.yandex.ru/m/?админ

Или есть какое-то принципиальное отличие этого мусора от / на конце?

Но вас никто не заставляет, верьте, что будет всё хорошо, и нигде внутри сайта вы по ошибке не сошлётесь куда не надо.

Какая разница какие задачи решает ПС, если они совпадают с моими

Ну-ну. Вы не из яндекса?

В запросе он не чувствует / (и таким запросом индексацию не проверяют)

и у него не та скорость, что у гугла

(и может быть вам понравился мусор в гугл.индексе).

genjnat:
Что технически страницы разные, и так понятно, не понятно считают ли ПС их таковыми.

У ПС есть задача сократить расход своего железа. Они решают свою задачу, а не вашу. Не понятно? Со своей задачей они справляются часто, а с вашей как получится. Правильно получается не в 100% случаев.

Как правило вы видите результат уже после отфильтровывания дублей (изредка это может сопровождаться вылетом всего сайта).

genjnat:
так как реализовано в Яндексе - т. е. - если по дефолту без www, внутренние ссылки без www, то только так он индексировать и будет.
Ну-ну.
genjnat:
И ни разу за все это время не видел в индексе дубля со слешем и без.

Возможно вы смотрели раньше, чем бот принял меры. Но подобные меры могли быть и не желательны для вебмастера. Ну пусть пишет боту щукину.

genjnat:
Так же как и описанную вами ситуацию, где со слешем и без разный контент.

Вы хотите чтобы я 7 минут поковырялся и сделал такое? Сделайте сами.

А то, как обычно настроены серваки — лишь один из возможных для ПС случаев.

genjnat:
Вот такие дубли
http://www.yandex.ru/m/
http://www.yandex.ru/m
В индексе можно найти?

Ну щас попостим, посмотрим..

А с параметрами там уже есть со слешем и без.

genjnat:
А так бывает?

Если сделать, то бывает.

Со слешем и без него — это разные урлы для ПС.

genjnat:
мифа, про дубли со слешем и без, коих в индексе никто не видел

Если вы чего не видели, то вполне возможно индексация того сцайта для ПС когда-то оказывалась под вопросом. И автоматическое решение проблемы случайно оказалось таким, как хотелось бы вебмастеру, но вероятность этого < 80%.

http://www.yandex.ru/m

http://www.yandex.ru/m?туфта

http://www.yandex.ru/m/?дубль

И со слешем, и без, и хернёй в параметрах http://www.google.ru/search?q=site:www.yandex.ru/m

просто подобные страницы олгоритму трудно счесть дулями — они попадают в индекс с разным контентом.

Всего: 13661