богоносец

богоносец
Рейтинг
775
Регистрация
30.01.2007

Это не дичь, так говорят люди /ru/forum/889972

но не всегда объясняют причины, поэтому оно и кажется дичью.

(а вас программеров не поймешь нихрена)

Но ведь ещё и делают так www.google.ru/search?q=site%3Aunmedia.ru+seo

И что-то смутно вспоминаются объяснения, что при типичных настройках серваков так меньше шансов нопортачить... с такими примитивными пустяками как всего-то какой-то слеш.

А создатели CMS просто не пытаются решить проблему дублей в общем виде и обычно вспоминают про каноникалы, что лишь увеличивает траф и замедляет индексацию.

genjnat:
А почему оба варианта (inger.com.ua и inger.com.ua/) отдают код 200, и копируя из адресной строки, я получаю inger.com.ua/ ?

Браузер делают запрос

GET / HTTP/1.1

Host: inger.com.ua
но в адресе вам слеша (и http: ) не показывают, хотя / копируется из адресной строки.

ПС часто не показывают аналогично, чаще по релевантности, но не всегда. И яндекс в этом не-показывании действует слишком похоже на гугл.

Тест был /ru/forum/comment/9246487

В индексе гугл покажет все страницы с &filter=0 www.google.ru/search?q=site:www.allave.ru/Polis.html&filter=0

а яндекс нет https://yandex.ru/search/?text=url%3Awww.allave.ru%2FPolis.html

только по уникальной фразе

https://yandex.ru/search/?text=url%3Awww.allave.ru%2FPolis.html+%D0%BA%D1%83%D0%BF%D0%BB%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9

https://yandex.ru/search/?text=url%3Awww.allave.ru%2FPolis.html+%D1%81%D0%B5%D0%B7%D0%BE%D0%BD%D0%BD%D1%8B%D0%B5

(отдельной темой являются точные определения: что значит в индексе, поскольку в выдаче бывало то, чего нет в индексе и наоборот)

Тест:

http://slash.500mb.net/w//

http://slash.500mb.net/w/

http://slash.500mb.net/w

вчера начался, поэтому уже одна в индексе гугла

BodryiDrug:
Финальным сегментом строки должен быть .html. Разделы и подразделы в которых лежат вложенные страницы, должны заканчиваться на слеш.

А некоторые этого не знали и наделали урлов www.ashmanov.com/services

А может лучше Финальным сегментом строки должен быть .php ?

/ru/forum/optimization-practices/beginners-questions 200 Ok

Нету CMS удобных для ПС. Прогерам не удаётся объяснить простейшие моменты. Они считают их ненужными.

Аня1992:
Да выбрала битрикс, но пока специалиста не нашла ))

Побойтесь дублей...

на него тут ругаются не реже, чем на других:

https://www.1c-bitrix.ru/about/life/photo

https://www.1c-bitrix.ru/about/life/23

https://www.1c-bitrix.ru/about/life/

Про это чёртово SEO они там не слышали, поэтому ваши затраты на правильный напильник превысят все разумные пределы.

Что с яндекс/м дублей в индексе не будет, это потому, что такой контент боту сложно счесть дублями (подсказка дорвейстрою).

ПС в запросе / не чувствуют

не только для поиска но и для индексации?

Для показа в списке проиндексированных, т.е. по нормальным запросам может искаться, но не показаться с site: или url:

&filter=0 гуглю добавляйте.

genjnat:
Вы пишите в индексе их нет потому что ПС уже отфильтровали.

Нет, возможно, вы видите результат уже после отфильтровывания. А может и нет.

genjnat:
дубли www, хоть бы можно увидеть в Гугле, по крайней мере для молодых сайтов. Еще недавно можно было и в Яндексе.
Сейчас, на 100% не настаиваю, но на практике уже больше года не встречал.

А мне почему-то попались: 1 / 2 хотя я этим всем уже не занимаюсь несколько лет.

традиционно исходят из того, что со / и без, для ПС дубли

По определению: Дубли == одинаковый контент. Если он с www|слешем и без — это должно бы фильтроваться, но пока они перелопатят свою базу, а им приходится заниматься не одним конкретным вашим сайтом, а именно своими мегапроблемами. (и чтобы ПС отфильтрить ваши дубли, придётся выполнить кучу лишних HTTP обращений)

Реальные олгоритмы могут использовать и вид урла в качестве признака... но создатели кода в паблик не выкладывали.

Если с PHP проблем нет, сделайте разный ответ сервака на

домен/м

домен/м/

домен/м//

и запостите ссылки.

---------- Добавлено 09.01.2016 в 18:22 ----------

Дубли

https://www.1c-bitrix.ru/about/life/23

https://www.1c-bitrix.ru/about/life/photo

https://www.1c-bitrix.ru/about/life/гавно

https://www.1c-bitrix.ru/about/life/☻♫♥

https://www.1c-bitrix.ru/about/life/ส้้้

id у вас ассоциируется с новой папкой.

Т.е. т.н. «вложенность урла» == количество слешей?

Ну а меняете зачем?

(это не значит, что я против, просто интересно)

У вас слишком человеческие предположения, что ПС якобы нужно некое единообразие урлов (со слешем или без, с www или без).

А если на каждую следующую скачанную сотню страниц ПС находит 76 дублей, то индексация продолжится?

И запросы бестолковые:

ПС в запросе не только / не чувствуют... и могут не показать то, чего у них есть в индексе.

Вот эта хрень в индексе нужна?:

www.google.ru/search?q=site:www.yandex.ru/m

www.yandex.ru/search/?text=url%3Awww.yandex.ru%2Fm*

это всего лишь иллюстрация неидеальности алгоритма фильтрации дублей.

Вот эта самая неидеальность может и по вашему подопечному прокатиться, а потом «развивайте, улучшайте». Вы же не хотите учесть, что видите индекс уже после фильтрации, а в процессе — “никто не видел”. А с www.yandex.ru/m бесконечный процесс (контент неудобный для фильтрации).

ПС определяют дубли не по урлу и не по / в конце.

Дубли — это одинаковый контент (но нет инфы о том, как ПС эту одинаковость проверяет).

(если с моего 50 страничного сайта в индекс залезет 378 страниц, то мне это было бы не важно — если бы ПС не начала чистить свои закрома от того, что сочтёт дублями. При этом нет бесконечного количества ресурсов на идеальность этого процесса, ну типа раз в неделю что-то сверит и дальше побежит)

Есть примеры, сайта индексируемого без (или с слешами), и что бы одна/две/пять страниц проиндексировались с слешами (или без)?

В данном случае я не настаиваю что подобного не бывает, но на практике тоже не видел.

Не воспринимайте в штыки, но просто, если и таких примеров никто привести не сможет, то на чем тогда держится уверенность что для ПС это разные страницы?

Вы не понимаете, что обычно вы видите результат уже после отфильтровывания дублей?

ццц.яндекс.ру/м

ццц.яндекс.ру/м/

таким примером долго был. Но там контент плывёт...

Для ПС любое изменение в урле (кроме регистра букв в домене) == другому адресу (это без вопросов, HTTP так устроен)... но фильтрация происходит по другим причинам.

И чтобы не создавать ПС даже минимальных проблем, контент должен быть доступен по единственному урлу. А то лечить дубли на 10000 страничном сайте ПС может слишком долго. Есть пределы количества обращений к сайту, хотя бы поэтому надо отдавать не-дубли.

Посмотрите на параноиков:

http://www.ashmanov.com/marketing/strategy/

HTTP/1.1 301 Moved Permanently

Location: http://www.ashmanov.com/marketing/strategy

https://www.yandex.ru/timeline/Жак_Ив_Кусто/ почему 302, а не 301?

Не понятно?:

Как правило вы видите результат уже после отфильтровывания дублей
и какие ваши риски от неидеальности алгоритмов — точно вы не знаете.

Но продолжайте настаивать чтобы вам показали дубли с / и без (строго на конце).

genjnat:
Нет там ни одного примера со слешем на конце, а обсуждаем именно его

Может ещё скажите, что остальные дубли — не дубли? Очень надо www.yandex.ru/m/?админ

Или есть какое-то принципиальное отличие этого мусора от / на конце?

Но вас никто не заставляет, верьте, что будет всё хорошо, и нигде внутри сайта вы по ошибке не сошлётесь куда не надо.

Какая разница какие задачи решает ПС, если они совпадают с моими

Ну-ну. Вы не из яндекса?

В запросе он не чувствует / (и таким запросом индексацию не проверяют)

и у него не та скорость, что у гугла

(и может быть вам понравился мусор в гугл.индексе).

genjnat:
Что технически страницы разные, и так понятно, не понятно считают ли ПС их таковыми.

У ПС есть задача сократить расход своего железа. Они решают свою задачу, а не вашу. Не понятно? Со своей задачей они справляются часто, а с вашей как получится. Правильно получается не в 100% случаев.

Как правило вы видите результат уже после отфильтровывания дублей (изредка это может сопровождаться вылетом всего сайта).

genjnat:
так как реализовано в Яндексе - т. е. - если по дефолту без www, внутренние ссылки без www, то только так он индексировать и будет.
Ну-ну.
Всего: 13653