GET-запросы урл-ов соседнего сайта на сервере, помогите разобраться

12
R
На сайте с 22.06.2007
Offline
174
2098

Выделенный сервер на Debian, на котором много сайтов (bind9, nginx+php-fpm).

Столкнулся с очень странной проблемой. В логах nginx отдельных хостов с завидной регулярностью замечаю get-запросы страниц другого сайта.

То есть например в логе первого сайта site1.ru.access.log Googlebot/2.1 и другие боты запрашивают страницы второго сайта

...
..."GET /stranica-site2-1.html HTTP/1.1"...
...
..."GET /stranica-site2-n.html HTTP/1.1"...
...

На самом деле это урл-ы сайта site2.ru и ссылок естественно таких на site1.ru нигде нет, поэтому то, что они запрашиваются тем боле поисковыми ботами, может означать только одно - ошибка где-то в конфигах. Я в первую очередь подумал, что дело в кешировании fast-cgi-запросов на nginx и убрал его - но это на мое удивление не решило проблему.

Я не могу понять почему такое может происходить и куда копать дальше.

Тому, кто даст правильную наводку в решении вопроса, готов заплатить 10 баксов за помощь (если проблема окажется серьезная, готов обсудить решение за вашу цену).

Прикрепляю все необходимые (на мой) взгляд конфиги: общий nginx.conf и конфиг хоста, на всякий случай конфиги днс-зоны - может даже там проблема.

txt nginx.conf.txt
txt site.ru.txt
txt dns_site.ru.txt
txt dns_myzones.conf.txt
txt dns_named.conf.txt
I
На сайте с 23.12.2010
Offline
25
#1

А вы в логах можете поставить чтобы Host из хттп заголовка тоже логировался? Если будет писать site1.ru для приведенных линков то sitemap проверить, беклинки.

Если у вас оба сайта на одном IP сидят то днс ни при чем

R
На сайте с 22.06.2007
Offline
174
#2
iopiop:
А вы в логах можете поставить чтобы Host из хттп заголовка тоже логировался?

наверно можно, но я и так точно знаю, что это урл-ы другого хоста. На сервере все мои сайты и я четко знаю их структуру. Между собой они никак не перелинкованы.

iopiop:
Sitemap проверить, беклинки.

конечно. В сайтмепе все правильно и у каждого хоста свой сайтмеп, беков на эти страницы нет.

iopiop:
Если у вас оба сайта на одном IP сидят то днс ни при чем

Сайты на разных IP.

anemak
На сайте с 30.07.2010
Offline
32
#3

А логи разных сайтов точно пишутся в разные файлы? Что то конфиги не вижу в посте (м.б. из за того что с телефона)

лобстеры, Дон Периньон, белуга, Хеннеси ...
R
На сайте с 22.06.2007
Offline
174
#4
anemak:
А логи разных сайтов точно пишутся в разные файлы?

Да, конечно. В общий лог в том числе и по отдельности для каждого хоста. Да то что левые страницы запрашиваются в этом нет никаких сомнений, потому что они даже в индекс попадают в случае ответа 200.

anemak:
Что то конфиги не вижу в посте (м.б. из за того что с телефона)

наверное, конфиги есть в 5 прикрепленных файлах.

anemak
На сайте с 30.07.2010
Offline
32
#5

Если ответ на запрос - 200 значит страничка валидна и существует, значит все в порядке

R
На сайте с 22.06.2007
Offline
174
#6
anemak:
Если ответ на запрос - 200 значит страничка валидна и существует, значит все в порядке

Нет, специфика движка такова, что он отдает 200 на почти любые страницы даже на не существующие на самом деле - то есть скажем генерится пустая страница и отдается код 200.

Но не в этом вопрос. Не важно какой код отдается, важно откуда берутся эти get-запросы.

anemak
На сайте с 30.07.2010
Offline
32
#7
Reise:
Нет, специфика движка такова, что он отдает 200 на почти любые страницы даже на не существующие на самом деле - то есть скажем генерится пустая страница и отдается код 200.
Но не в этом вопрос. Не важно какой код отдается, важно откуда берутся эти get-запросы.

Тогда, для начала, нужно удостовериться что ссылок с внутренних страниц нигде нет. Для этого в панели вебмастера в разделе "Ошибки сканирования" найдите хотя бы одну страницу в с кодом 404, там будет "Имеется ссылка с". Дальше проверяйте странички.

zexis
На сайте с 09.08.2005
Offline
388
#8

Добавить в формат лога поле $host было бы полезно для изучения этой проблемы.

Тоже как то видел такое в логах, но не придал этому значения и особо не разбирался.

Может причина в том что у какого то клиента не обновился ДНС и клиент шлет запросы к сайту по не верному IP адресу?

R
На сайте с 22.06.2007
Offline
174
#9
anemak:
Тогда, для начала, нужно удостовериться что ссылок с внутренних страниц нигде нет.

Нет нигде, это точно. Я тоже сначала думал, что где-то ссылки таки есть, вплоть до конкурентов, но когда мои многодневные поиски (вот моя старая тема, обратите внимание на дату 02.09.2011, 06:09 - с того времени проблема так и не решена, а левые страницы продолжают запрашиваться каждый день все новые и новые) таких страниц не увенчались успехом + к тому же get-запросы идут все новых и новых урл-ов от других сайтов на сервере, я понял что не туда копаю и надо искать трабл в конфигах.

anemak:
Для этого в панели вебмастера в разделе "Ошибки сканирования" найдите хотя бы одну страницу в с кодом 404, там будет "Имеется ссылка с". Дальше проверяйте странички.

Ни одной такой не нашел (хотя перелопатил более чем 2000 404-ых в ВМ), собственно наверно потому что ссылок нигде на такие страницы нет :) Но тем не менее проблема остается - такие левые страницы запрашиваются. Вывод один - что-то неправильно в конфигах.

Reise добавил 24.11.2011 в 07:34

zexis:
Добавить в формат лога поле $host было бы полезно для изучения этой проблемы.

В документации не нашел такого параметра, может не там смотрю. Хотя это лишнее, я и так четко понимаю чей там хост (там урл-ы одного из сайтов на сервере) так как сайты все мои и я знаю их структуру.

Reise добавил 24.11.2011 в 07:38

zexis:
Тоже как то видел такое в логах, но не придал этому значения и особо не разбирался.

Я бы придавал этому значение. Фильтр можно запросто схватить. Подозреваю, что уже мои сайты от этого пострадали. Может если бы хотя бы сервер 404 на такие страницы отдавал, ситуация не была столь критичной. Но в том то и дело, что скрипты отдают 200, страницы генерятся, но они почти пустые - тупо с менюшками - а это уже как минимум дубли контента, которые очень нежелательны на самом деле, а как максимум - ПС такое вообще может расценить как какую-то манипуляцию по увеличению числу страниц и т.д. и т.п. со всеми вытекающими. Короче это не то чтобы плохо, это очень плохо!

Reise добавил 24.11.2011 в 07:40

zexis:
Может причина в том что у какого то клиента не обновился ДНС и клиент шлет запросы к сайту по не верному IP адресу?

Ну на счет "не обновился" - это точно нет, потому что проблема продолжается уже очень продолжительное время - пару месяцев, а вот неправильная конфигурация ДНС вполне возможна. Я не спец в этом, сделал по нагугленным мануалам, может где-то что-то неправильно.

zexis
На сайте с 09.08.2005
Offline
388
#10

рекомендую добавить поля $host , $server_addr и $server_name в логи и посмотреть их значение у проблемных строк.


log_format mainh '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" $host $server_addr $server_name';

Описание доступных переменных в самом низу

http://nginx.org/ru/docs/http/ngx_http_core_module.html

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий