Боты гугля в форуме как посетители?

12
L
На сайте с 28.03.2002
Offline
4
2262

Держу я форум один, популярность у нас не очень высокая, и вот вижу как-то что разом сидит 8 гостей, смотрю их ip адреса и вижу

Имена пользователей Время последнего действия Последнее действие

Guest 5 Июля, 2002 - 7:15 Главная страница Конференции

Guest 216.239.46.105 5 Июля, 2002 - 7:20 Просмотр темы Японский Психоз (фильм "ЗВОНОК") - Кино и телевидение

Guest 216.239.46.100 5 Июля, 2002 - 7:20 Просмотр форума Кино и телевидение

Guest 216.239.46.88 5 Июля, 2002 - 7:20 Просмотр темы Стивен Сигал боится бандитов. - Кино и телевидение

Guest 216.239.46.39 5 Июля, 2002 - 7:20 Просмотр версии для печати этой темы in Cекс

Guest 216.239.46.42 5 Июля, 2002 - 7:21 Просмотр версии для печати этой темы in Разное о женщинах и мужчинах

Guest 216.239.46.193 5 Июля, 2002 - 7:21 Просмотр темы ОКНА на СТС - Кино и телевидение

Guest 216.239.46.140 5 Июля, 2002 - 7:21 Просмотр темы Мы произошли от обезьян? - Разговорчики

Guest 216.239.46.222 5 Июля, 2002 - 7:22 Просмотр версии для печати этой темы in Cекс

Guest 216.239.46.20 5 Июля, 2002 - 7:22 Просмотр версии для печати этой темы in Cекс

Guest 216.239.46.164 5 Июля, 2002 - 7:22 Просмотр версии для печати этой темы in Cекс

адреса все вроде как гуглю принадлежат

216.239.32.0 - 216.239.63.255

Google Inc.

2400 E. Bayshore Parkway

Mountain View, CA 94043

US

а как можно определить боты это или люди?

L
На сайте с 28.03.2002
Offline
4
#1

и еще забыл совсем сказать - трафф очень сильно вырос, а уровень посещений по счетчикам на приблизительно том же уровне, может это быть связано с визитами ботов? Т.е. насколько серьезно они ворошат сайт при визите?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Определять лучше всего по UserAgent. Не ставил себе целью внедрять такое опознавание в этот форум, но в принципе это сделать можно.

Траф может подрасти серьезно. Вот тебе пример - за 4 дня июля бот Гугла просмотрел на этом сайте 1100 страниц, а бот Яндекса - 440.

D
На сайте с 19.02.2001
Offline
14
#3

Gray

У меня гугл практически 4 дня подряд с форума не слазил. Сколько проиндексил еще не смотрел, но чувствую очень много. По-моему, Яндекс заглядывает реже и на меньший срок.

N
На сайте с 21.11.2001
Offline
152
#4
Как писал Gray
Определять лучше всего по UserAgent. Не ставил себе целью внедрять такое опознавание в этот форум, но в принципе это сделать можно...

UserAgent - роботов? Как? ИМХО через логи в режиме "онлайн"? А сервер выдержит ? Или форум будет торзмозить нещадно, наверно😮

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#5

Да нет. Ты, когда заходишь на форум, скрипт читает куку с твоего компа и, если ты зарегистрирован, показывает тебя в онлайне. Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent и сравнивать его со списком. Нагрузка ненамного выше.

N
На сайте с 21.11.2001
Offline
152
#6
Как писал Gray
Да нет. Ты, когда заходишь на форум, скрипт читает куку с твоего компа...Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent и сравнивать его со списком. Нагрузка ненамного выше.

Так... подошли к волнующей меня теме... Хорошо хоть разделе "для новичков":)

Предположим, точнее, наверняка, я не собираюсь заниматься клоакингом, а просто следить за посещением меня роботами. Я конечно же читал этот раздел, но это все на тему - как обмануть робота. Т.е. выявить его и подсунуть ему нужную страницу. Как ты и пишешь - скриптом отловить и сравнить со списком UserAgent. Вот вопрос: если я не собираюсь заниматься клоакингом, то зачем мне в онлайн-режиме его сравнивать со списком? Зачем нагружать сервак? Почему нельзя просто "сфотографировать" его в базочку, а затем, часиков в 12 ночи, когда меньшая нагрузка, разшинковать записи в базе по полочкам - робот туды, посетитель сюды?

И еще:


...Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent...

где можно взять подобный скрипт, именно тот, что читает UserAgent, для MIIS и ASP?

В данной теме (отлов заходов роботов) - я новичок :(. Поэтому мне еще непонятно - роботы ведь скрипты не отрабатывают? Или не все скрипты?

Спасибо заранее за ответ, для меня это очень важная тема.

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#7

Так, не будем путать грешное с праведным.

Топик был начат, как я понял, на тему распознавания роботов. Причем, прошу отметить, на тему их распознавания в форумах. Большинство современных скриптов форумов позволяют отслеживать поведение посетителей на форуме - используемый на этом форуме тоже это делает.

Поэтому, чтобы в онлайне показывать таких посетителей, как роботы - достаточно в коде форума, кроме распознавания куки, добавить чтение переменной окружения HTTP_USER_AGENT, которая передается любым запросом GET.

Разбор логов - вещь совсем другая. Грубо говоря, каждый заход на сайт приводит к записи в лог вебсервера.

Зачем нагружать сервак? Почему нельзя просто "сфотографировать" его в базочку, а затем, часиков в 12 ночи, когда меньшая нагрузка, разшинковать записи в базе по полочкам - робот туды, посетитель сюды?

Ну, так и так пишется. А потом делай что хочешь - натравливай программы обработки логов или вручную просматривай. Да хоть распечатай и вместо обоев наклей (копирайт мой :))

Формат записи в логе:


crawler10.googlebot.com - - [26/Jun/2002:00:55:05 -0400] "GET / HTTP/1.0" 200 29032 "-" "Googlebot/2.1 (+http://www.googlebot.com/bot.html)"

Не правда ли, почти все ясно? :)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#8

Блин, как я люблю страницы шириной в полтора экрана, кто бы знал :)

Несколько замечаний: HTTP_USER_AGENT передаётся в добровольном, а не принудительном порядке, кроме того может обрезаться файерволами (к приличным роботам не относится :)). И уж если система передаёт HTTP_USER_AGENT, то уж в не зависимости от типа запроса POST или GET.

Лог содержит 9 полей, а не большее количесвто как могло показаться на первый взгляд :)

Вот их расшифровка

1. IP address У Серёги этот адрес is resolved в имя (звиняйте, русского эквивалента не помню :)), обычно это на сервере не делается, т.к. это лишняя нагрузка при каждом обращении.

2,3 это логин и пароль. Некоторых ботов можно настроить для доступа к закрытым каталогам. Обычно пусты.

4. дата по Гринвичу (GMT) с указанием сдвига. + восточнее Гринвича, - западнее.

(В Москве сейчас +4, зимой +3, -4 это где-то в Америке)

5. Запрос переданный серверу, с указанием метода и протокола. Новых роботов можно определять, анализируя это поле. Кроме ботов только маньяки и некоторые offline browser'ы обращаются к robots.txt :)

Но тут главное не упустить бота, т.к. у некоторых поисковиков один из ботов обращается к robots.txt, а другие уже по сайту ползают.

6. Статус ответа сервера. 200=OK, 403=Forbidden, 404=Not Found и так далее.

7. Размер запрошенного документа (файла)

8. Рефферер. По ссылкам боты не ходят (они их выдерают из html rjlf и обращаются напрямую), так что это поле как правило ботом не заполняется.

9. Самое главное поле. Тот самый HTTP_USER_AGENT. Как правило именно по этому полю и определяют ботов. Однако тут есть засада - некоторые боты прикидываются венниками, то бишь обычными браузерами. Поэтому не худо резолвить IP адрес и по доменному имени смотреть уж не бот ли это был.

Удачи.

Да, незаполненные поля заменяются прочерками. Всегда заполнены только 1, 4, 5,6, и 7 поля. Без 1-го и 5-го сервер не будет знать что и куда отдавать, а про 4,6, 7 сервер заполняет на основании своих данных.

F
На сайте с 15.11.2000
Offline
116
#9
Как писал AiK
Лог содержит 9 полей, а не большее количесвто как могло показаться на первый взгляд :)

Сказанное, само собой, относится к логам Apache. Другие сервера могут выдавать иные логи, например, майкрософтовский IIS 4.0 пишет в лог 20 полей:

date time c-ip cs-username s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken s-port cs-version cs(User-Agent) cs(Cookie) cs(Referer)

С уважением,

Александр Садовский.

LM
На сайте с 30.11.2001
Offline
71
LiM
#10
Как писал funsad

Сказанное, само собой, относится к логам Apache. Другие сервера могут выдавать иные логи...

В таком случае уточню, что сказанное AiK относится только к логам Apache, которые он создает при настройках по умолчанию.

При желании всегда можно настроить Apache, чтобы он выдавал намного более сложные и подробные логи. Только это мало кому нужно. ;)

С уважением, Андрей Хроленок. Загляни в FAQ по оптимизации и продвижению сайтов (http://www.seoman.ru/FAQ/) Анализатор страниц сайтов (http://www.seoman.ru/analizer/)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий