Имеется анатомический интерес...

12
M
На сайте с 31.08.2004
Offline
1
2109

:confused: Как бы узнать, что у googlebot'а внутри.

Проблема. При посещении пауком сайта резко повышается количество спящих коннекшнов к MySQL'ю. Пытался смоделировать ситуацию. Засунул серваку ту же самую пачку запросов, что и паук делал - ситуация совсем не повторяется. Коннекшны не спят, а максимум через 3 сек отваливаются.

Может есть какие-то особенности внутри бота? Может он обрывает запросы к сайту по таймауту?

Please wait... for something terrible.
N8
На сайте с 25.06.2004
Offline
27
#1

http://www.searchengineworld.com/spiders/

тут вроде немного по паукам....

SilverMaster
На сайте с 08.10.2003
Offline
228
#2
Как писал Matthew
😕 Как бы узнать, что у googlebot'а внутри.
Проблема. При посещении пауком сайта резко повышается количество спящих коннекшнов к MySQL'ю. Пытался смоделировать ситуацию. Засунул серваку ту же самую пачку запросов, что и паук делал - ситуация совсем не повторяется. Коннекшны не спят, а максимум через 3 сек отваливаются.
Может есть какие-то особенности внутри бота? Может он обрывает запросы к сайту по таймауту?

знать что у гугльбота в нутри это почище чем знать прикуп.

Из детских комшаров: "А вдруг ночью придет страшный робот!" Из взрослых: "И криво проиндексирует сайт". Не всякий гик добежит до середины поисковой страницы гугла
Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

Matthew, поставьте лог на полные заголовки которые гугль бот посылает серверу ... может там что найдете ... но по идее от браузера он ничем не отличается в этом смысле ...

C
На сайте с 19.09.2001
Offline
120
#4

Запрос робота Гугля не содержит заголовка Connection, может быть в этом проблема?

С уважением, Владимир Чернышов. (не)?путевые заметки (http://chernyshov.kiev.ua/)
M
На сайте с 31.08.2004
Offline
1
#5

Гм. Спасибо, господа, что путь указали. )) Знать что внутри... Натравлю tcpflow посмотрю, что происходит. Connection вроде не при чем, т.к. глюк все-равно где-то дальше происходит. Уже когда пхп-скрипт начинает к mysql обращаться.

Есть также мнение, что это из-за отдачи скриптами страницы по куску (4Kb). Это, насколько я помню, вообще стандарт для всяких перлов и пхп... Ну, если дополнительных мер не принимать. Так что может паук выгребает первый кусок и считает, что все... Тогда это объяснит повисающие процессы. MySQL пытается выплюнуть результ, а уже некуда.

Вобщем... Ставлю снифер - потом расскажу о результатах.

Кста... Есть люди, которые ЗНАЮТ, что в прикупе... ))) Т.е. что в префе, что в нете "мошенников" хватает.

C
На сайте с 19.09.2001
Offline
120
#6
Так что может паук выгребает первый кусок и считает, что все...

Посмотрите, что лежит в кеше Гугла, если действительно только часть страницы, то Вы правы, да и снифер не нужен для этого.

M
На сайте с 31.08.2004
Offline
1
#7

Спасибо. Посмотрел снифером. )) Сервак отдает страницы целиком. И "Connection: close" тоже говорит.

Тут дело еще более неожиданный оборот приняло. Бот работает по HTTP/1.0, а сервак по 1.1 отвечает.

Прописал в конфиге апача (mod_setenvif.c) строку:

BrowserMatch "^Googlebot/2\.1" nokeepalive downgrade-1.0 force-response-1.0

и, кажется, наступила тишина... Подожду еще пару часов. Может проблема и решилась.

[Удален]
#8

Бот не работает по HTTP/1.0.

Он просто в запросе пишет GET / HTTP/1.0. (там можно написать хоть 1.88, разницы мало).

При этом использует заголовки, применимые в только 1.1, и ответ в стандарте 1.1 воспринимает правильно.

FM
На сайте с 21.04.2004
Offline
125
#9

хм .... у меня мускул валится от таких вот слипов, не понимал откуда брались ... так это что гугль получается....

мало того эти зомби процессы выжирают все ресурсы сервера, хостер жалуется ... хочет меня переносить на более мощный сервер, но я думаю что проблема останется.... что же делать , помогите плз.

более подробно поясните плз как бороться с проблемой, я в тонких материях увы не разбираюсь ....

не охота что б сайт пропал, столько труда вложено...

ironic
На сайте с 09.09.2003
Offline
163
#10

У меня помню тоже были проблемы с Connections'ами к MySQL'ю.

При использовании mysql_pconnect - они накапливались, что приводило к загрузке сервера, в итоге хостер наругался на меня.

При переходе на mysql_connect - все успокоилось.

Что и вам рекомендую.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий