Вопрос про «Сессии и дубликаты»

[Удален]
1154

Некоторое время назад я читал книгу:

«Оптимизация и продвижение сайтов в поисковых системах» Ашманов И., Иванов А.

У меня появились вопросы по двум цитатам из книги.

Цитата 1:

Если на сайте присутствует возможность регистрации пользователя (например,
форум), важно как-то запомнить дату его последнего посещения, на каких страницах
он побывал, какие настройки сделал и т. д. Для этого существует механизм
сессий - это уникальные идентификаторы каждого посетителя сайта.

У обычного пользователя идентификатор сессии хранится в Cookie браузера, но
у некоторых пользователей в браузере настройки установлены таким образом, что
Cookie отключены. Если посетитель приходит на сайт с отключенными Cookie, то
для того, чтобы проследить его действия, к каждому адресу страницы добавляется
идентификатор сессии (некая комбинация символов). Такие адреса могут выглядеть
так:

www.site.ru/forum.asp?topic=135&sessionID=42487E39A2B04279A42623E59DFF.

Поисковые роботы не могут принимать Cookie, поэтому получают идентификатор
сессии в адресе страницы, как те пользователи, у которых Cookie отключены.
Каждый раз, когда робот приходит на сайт, в котором используется механизм сессий,
ему присваивается разный идентификатор, который добавляется к адресам страниц,
и каждый раз одни и те же страницы для робота имеют разные адреса. То есть для
него это разные страницы.

После нескольких заходов на сайт в разное время поисковый робот имеет огромные
списки одних и тех же страниц с разными идентификаторами сессий. В результате
расходуются ресурсы сервера, а очередь до индексирования действительно важных
страниц может так и не дойти.

Исходя из этой цитаты, вопрос, как этого избежать?

Я выступаю в роли заказчика (я не программист и не SEO оптимизатор).

Поэтому мне нужно сформулировать указание для технического задания на сайт программисту.

Как правильно сформулировать?

«Для сайта отключить механизм сессий/идентификатор сессий»?

Возможно ли, отключить для сайта механизм сессий, если часть функций сайта будет работать

через куки (запоминать выбор пользователя в каталоге товаров и т.д.)?

Цитата 2:

Еще одной проблемой для крупных сайтов могут стать дубликаты страниц. После
того как на сайте была изменена адресация страниц, может возникнуть ситуация, когда
для каждой страницы сайта существует еще несколько ее копий. Приведем
в качестве примера несколько адресов, которые для робота будут разными страницами,
но на самом деле ведут на одну и ту же страницу (предположим, что на сайте были введены
псевдостатические адреса):

www.site.ru/script.php?page=service&imode=show
www.site.ru/service/
www.site.ru/service.html
www.site.ru/service.htm

Если на этом сайте, к примеру, было 1000 страниц, то поисковая система получит
4000 ссылок, а позже вынуждена будет выбирать из четырех копий наиболее релевантную
страницу. Чтобы этого не случилось, нужно проверять страницы сайта и
исключать ситуации, когда по нескольким разным адресам находятся совершенно
одинаковые страницы.

Отдельно следует отметить механизм «Яндекса» по удалению дубликатов: когда
количество одинаковых страниц сайта достигает определенного порога, запускается
специальная программа, которая удаляет лишние страницы из индекса поисковой
системы. Иногда после такой процедуры в индексе просто не остается документов
с сайта, и процесс индексации начинается с самого начала.

Здесь, исходя из этой цитаты, аналогичный вопрос, как этого избежать?

Как сформировать указание для технического задания на сайт программисту, чтобы не возникла

ситуация, когда для каждой страницы сайта существует еще несколько ее копий, как в примере выше?

Оптимизайка
На сайте с 11.03.2012
Offline
396
#1
rownong2:
Здесь, исходя из этой цитаты, аналогичный вопрос, как этого избежать?

Хранить идентификатор сессии в COOKIE, а не в URL сайта. Если это невозможно, можно исключить дубликаты через robots.txt (для яндекса параметр Clean-param) и в google webmaster (Сканирование -> Параметры URL).

Как сформировать указание для технического задания на сайт программисту, чтобы не возникла
ситуация, когда для каждой страницы сайта существует еще несколько ее копий, как в примере выше?

Так и написать, мол каждая сущность на сайте должна быть адресована только одним уникальным адресом URL. Страницы, которые могут содержать дополнительные параметры запроса, должны содержать canonical url.

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
[Удален]
#2

Оптимизайка, благодарю за ответы.

Оптимизайка:
Хранить идентификатор сессии в COOKIE, а не в URL сайта. Если это невозможно...

Почему это бывает невозможно (по каким техническим причинам)?

Mik Foxi
На сайте с 02.03.2011
Offline
1133
#3
rownong2:
Почему это бывает невозможно (по каким техническим причинам)?

по техническим причинам кривых движков.

Универсальный антибот, антиспам, веб файрвол, защита от накрутки поведенческих № 1 в рунете: https://antibot.cloud/
богоносец
На сайте с 30.01.2007
Offline
764
#4
rownong2:
Как сформировать указание для технического задания на сайт программисту, чтобы не возникла
ситуация, когда для каждой страницы сайта существует еще несколько ее копий, как в примере выше?

А этот программист будет делать что? CMS или сайт на CMS? (думаете, он всё кривое переделает?)

Сформулировать ему — так как в той цитате.

Чтобы не было доступно страниц по произвольным адресам

www.ashmanov.com/company/news/&Мракобес☠

www.ashmanov.com/company?Мракобес☠

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий