GET-запросы урл-ов соседнего сайта на сервере, помогите разобраться

12
R
На сайте с 22.06.2007
Offline
174
#11

zexis, спасибо, попробую. Соберу стату и отпишусь.

Reise добавил 24.11.2011 в 10:17

zexis, куда надо вставить этот код, чтобы логи начали писаться в другом формате.

Пробовал прямо в nginx.conf непосредственно перед строками логов:

log_format mainh '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" $host $server_addr $server_name';

access_log /var/log/nginx/access.log;
error_log /var/log/nginx/error.log;

пробовал в конфиг хоста:

log_format mainh '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" $host $server_addr $server_name';

access_log /var/log/nginx/site.ru.access.log;
error_log /var/log/nginx/site.ru.error.log;

При этом оба разу пробовал и /etc/init.d/nginx reload и после того как не помогло :) /etc/init.d/nginx stop /etc/init.d/nginx start - не помогло! Лог и дальше пишется в старом формате.

Может сама конструкция неправильная, поэтому она игнорируется?

izbushka
На сайте с 08.06.2007
Offline
110
#12
Reise:
а левые страницы продолжают запрашиваться каждый день

Если они отдаются с кодом 200, то они и будут продолжать запрашиваться, с чего бы им выпасть из индексов ПС.

А если вы сами эти левые страницы открываете, какой на них контент? С левых сайтов?

Формат логов можно добавить для всех виртуалхостов сразу - в секции http { }

И да, вы описываете формат log_format mainh, потом надо сказать его использовать:

access_log /var/log/nginx/access.log mainh;

Andreyka
На сайте с 19.02.2005
Offline
822
#13
Reise:
Нет, специфика движка такова, что он отдает 200 на почти любые страницы даже на не существующие на самом деле - то есть скажем генерится пустая страница и отдается код 200.

Поисковые системы с удовольствием забанят такой сайт

Не стоит плодить сущности без необходимости
R
На сайте с 22.06.2007
Offline
174
#14
Andreyka:
Поисковые системы с удовольствием забанят такой сайт

Ну вот, поэтому нужно решать эту проблему. Мне непонятно почему такие страницы запрашиваются, где косяк в конфигах?

Reise добавил 24.11.2011 в 19:42

izbushka:
Если они отдаются с кодом 200, то они и будут продолжать запрашиваться

Ну почему они должны запрашиваться, если на эти страницы нету нигде ссылок. Ну а то, что они индексируются так как код 200 - это понятно. Вопрос - почему они запрашиваются.

Reise добавил 24.11.2011 в 19:47

izbushka:
А если вы сами эти левые страницы открываете, какой на них контент? С левых сайтов?

Нет, контент с нужных сайтов - за это уже отвечает движок. Правда страницы почти пустые - тупо с менюшками и без контента.

Например на сайте 2 существует страница site2.ru/page/155/ (там много страниц)

Такая запрашивается ботами на сайте 1, на котором всего скажем 5 страниц. То есть получается GET-запрос site1.ru/page/155/ - движок (DLE) при этом отдает код 200 и генерит почти чистую страницу с менюшками и пустым местом от контента.

I
На сайте с 23.12.2010
Offline
25
#15
Reise:
zexis, спасибо, попробую. Соберу стату и отпишусь.

И как ?

R
На сайте с 22.06.2007
Offline
174
#16

Проблему удалось локализировать. Проблема как я и подозревал в кешировании fast-cgi-запросов nginx'ом. Создавался неуникальный на уровне хостов ключ хеша, поэтому страницы путались.

Просто после того как я убрал кеширование, я забыл о том, что ПС могут ходить тупо за обновлениями по тем же ссылкам, что и ввело меня в заблуждение. Тут думаю нужно время, чтобы ПС забыли об этих страницах.

Andreyka
На сайте с 19.02.2005
Offline
822
#17
Reise:
Проблему удалось локализировать. Проблема как я и подозревал в кешировании fast-cgi-запросов nginx'ом. Создавался неуникальный на уровне хостов ключ хеша, поэтому страницы путались.
Просто после того как я убрал кеширование, я забыл о том, что ПС могут ходить тупо за обновлениями по тем же ссылкам, что и ввело меня в заблуждение. Тут думаю нужно время, чтобы ПС забыли об этих страницах.

Гильотина от перхоти

izbushka
На сайте с 08.06.2007
Offline
110
#18
Reise:
Тут думаю нужно время, чтобы ПС забыли об этих страницах.

Они не забудут, пока страницы отдаются с кодом 200

Алексей
На сайте с 23.02.2009
Offline
580
#19

Это целая дыра, через которую можно валить сайт, путем размножения дублей и пустых страниц.

---------

удаляйте через robots.txt

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий