Как избавиться от дублей страниц?

P
На сайте с 16.05.2011
Offline
75
967

Здравствуйте, уважаемые администраторы!

Сервер nginx + apache, сайт самописный (html + php).

Проблема состоит в том, что страница вида http://site.ru/page.html также отображается по адресам:

http://site.ru/page.html/

http://site.ru/page.html/page.html

http://site.ru/page.html/abra/kadabra

и.т.д.

Пожалуйста, подскажите, что и где нужно прописать – чтобы сервер вместо дублей отдавал 404 ошибку? (как оно по идее и должно быть)

Вопрос вроде бы простой, а ответа нигде не нашёл(

Да, весь мусор, конечно, от индексации закрыл, но хочется найти более эффективное решение.

Спасибо.

pupseg
На сайте с 14.05.2010
Offline
364
#1

что в .htaccess ?

Качественная помощь в обслуживании серверов. (/ru/forum/661100) Бесплатных консультаций не даю, не помогаю, не обучаю. Минималка от 100$. Как пропатчить KDE-просьба не спрашивать. Есть форумы (http://linux.org.ru) и полезные сайты (http://www.opennet.ru/).
Gzas
На сайте с 05.01.2014
Offline
135
#2

Проблема в вашей CMS.

RAS
На сайте с 27.11.2005
Offline
126
RAS
#3

надо смотреть, может можно и обойтись хитрым редиректом, чтобы поправить работу cms.

Администрируем сервера, впс, вдс. Ускоряем загрузку сайтов - DLE, Word Press, Joomla, Modx... Настраиваем безопасность. Ручная чистка rootkit/malware/вирусов. (/ru/forum/867860) Разработка - shell/bash/sh/python/perl.
P
На сайте с 16.05.2011
Offline
75
#4
pupseg:
что в .htaccess ?

Только директива AddType application/x-httpd-php5 .htm .html .php

Проблема в вашей CMS

CMS как таковая отсутствует, сайт самописный: html + php инклуды + js/php скрипты

может можно и обойтись хитрым редиректом

Редирект - это, конечно, неплохо, но странно - почему сервер не отдаёт 404 ошибку - ведь этих страниц фактически не существует в директории сайта

Andreyka
На сайте с 19.02.2005
Offline
822
#5

Ну так сами и напишите .htaccess. Что за вопрос?

Не стоит плодить сущности без необходимости
auditsaitov001
На сайте с 28.06.2015
Offline
11
#6

Есть тяжкий путь, но надежный:

Пишите на пыхе фильтр адресов, чтобы страницы проверялись по шаблону, то есть подходит-гуд, нет-404.

Штацессом можно все не перебить.

Вот что может в индекс попереть, если конкуренты начнут кормить аддурилку заведомой бякой:

http://site.ru/page.html/000000000page.html

http://site.ru/page.html/57287page.htm/2222222page.html

http://site.ru/0000page.html/000000000page.html

http://site.ru/00page.html/88page.html/11page.html

http://site.ru/00page.html/41rtv45yet14c51yt45v145yt1crh51t4cj5t1

И т. п.

А дубли страниц для поисковика не есть ок.

Аудит безопасности Вашего сайта квалифицированным специалистом по иб. Ручная проверка кода на уязвимости, поиск вирусов, вебшеллов и проч. Полная проверка, а не простое удаление вирусов.
P
На сайте с 16.05.2011
Offline
75
#7
Вот что может в индекс попереть...

Такое уже было - всё закрыл от индексирования - сработало. Но хочется всё настроить как следует

Andreyka:
Ну так сами и напишите .htaccess. Что за вопрос?

Спасибо, знал бы как - не создавал бы топик. Прошу прощения за нубовский вопрос, но будет ли работать такая директива в .htaccess, если фронтендом установлен nginx?

Кстати, нашёл похожий топик /ru/forum/817060,

где для запрета доступа к странице /index.pl?get_id=5 предлагается следующая конструкция:

if ($request_uri = "/index.pl?get_id=5") {
return 404;
}

Можно ли задать подобное условие по маскам

page.html*

page.pdf*

?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий