- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
![В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи](https://d.searchengines.guru/20/96/odnoklassniki-hombre_600x314__dd3191c2.jpg)
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
![Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ](https://d.searchengines.guru/20/95/seo-2024-stock_600x314__3274f588.jpg)
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Держу я форум один, популярность у нас не очень высокая, и вот вижу как-то что разом сидит 8 гостей, смотрю их ip адреса и вижу
Имена пользователей Время последнего действия Последнее действие
Guest 5 Июля, 2002 - 7:15 Главная страница Конференции
Guest 216.239.46.105 5 Июля, 2002 - 7:20 Просмотр темы Японский Психоз (фильм "ЗВОНОК") - Кино и телевидение
Guest 216.239.46.100 5 Июля, 2002 - 7:20 Просмотр форума Кино и телевидение
Guest 216.239.46.88 5 Июля, 2002 - 7:20 Просмотр темы Стивен Сигал боится бандитов. - Кино и телевидение
Guest 216.239.46.39 5 Июля, 2002 - 7:20 Просмотр версии для печати этой темы in Cекс
Guest 216.239.46.42 5 Июля, 2002 - 7:21 Просмотр версии для печати этой темы in Разное о женщинах и мужчинах
Guest 216.239.46.193 5 Июля, 2002 - 7:21 Просмотр темы ОКНА на СТС - Кино и телевидение
Guest 216.239.46.140 5 Июля, 2002 - 7:21 Просмотр темы Мы произошли от обезьян? - Разговорчики
Guest 216.239.46.222 5 Июля, 2002 - 7:22 Просмотр версии для печати этой темы in Cекс
Guest 216.239.46.20 5 Июля, 2002 - 7:22 Просмотр версии для печати этой темы in Cекс
Guest 216.239.46.164 5 Июля, 2002 - 7:22 Просмотр версии для печати этой темы in Cекс
адреса все вроде как гуглю принадлежат
216.239.32.0 - 216.239.63.255
Google Inc.
2400 E. Bayshore Parkway
Mountain View, CA 94043
US
а как можно определить боты это или люди?
и еще забыл совсем сказать - трафф очень сильно вырос, а уровень посещений по счетчикам на приблизительно том же уровне, может это быть связано с визитами ботов? Т.е. насколько серьезно они ворошат сайт при визите?
Определять лучше всего по UserAgent. Не ставил себе целью внедрять такое опознавание в этот форум, но в принципе это сделать можно.
Траф может подрасти серьезно. Вот тебе пример - за 4 дня июля бот Гугла просмотрел на этом сайте 1100 страниц, а бот Яндекса - 440.
Gray
У меня гугл практически 4 дня подряд с форума не слазил. Сколько проиндексил еще не смотрел, но чувствую очень много. По-моему, Яндекс заглядывает реже и на меньший срок.
Определять лучше всего по UserAgent. Не ставил себе целью внедрять такое опознавание в этот форум, но в принципе это сделать можно...
UserAgent - роботов? Как? ИМХО через логи в режиме "онлайн"? А сервер выдержит ? Или форум будет торзмозить нещадно, наверно😮
Да нет. Ты, когда заходишь на форум, скрипт читает куку с твоего компа и, если ты зарегистрирован, показывает тебя в онлайне. Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent и сравнивать его со списком. Нагрузка ненамного выше.
Да нет. Ты, когда заходишь на форум, скрипт читает куку с твоего компа...Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent и сравнивать его со списком. Нагрузка ненамного выше.
Так... подошли к волнующей меня теме... Хорошо хоть разделе "для новичков":)
Предположим, точнее, наверняка, я не собираюсь заниматься клоакингом, а просто следить за посещением меня роботами. Я конечно же читал этот раздел, но это все на тему - как обмануть робота. Т.е. выявить его и подсунуть ему нужную страницу. Как ты и пишешь - скриптом отловить и сравнить со списком UserAgent. Вот вопрос: если я не собираюсь заниматься клоакингом, то зачем мне в онлайн-режиме его сравнивать со списком? Зачем нагружать сервак? Почему нельзя просто "сфотографировать" его в базочку, а затем, часиков в 12 ночи, когда меньшая нагрузка, разшинковать записи в базе по полочкам - робот туды, посетитель сюды?
И еще:
...Чтобы показать робота (а он тоже ловится скриптом), достаточно, кроме куки, читать UserAgent...
где можно взять подобный скрипт, именно тот, что читает UserAgent, для MIIS и ASP?
В данной теме (отлов заходов роботов) - я новичок :(. Поэтому мне еще непонятно - роботы ведь скрипты не отрабатывают? Или не все скрипты?
Спасибо заранее за ответ, для меня это очень важная тема.
Так, не будем путать грешное с праведным.
Топик был начат, как я понял, на тему распознавания роботов. Причем, прошу отметить, на тему их распознавания в форумах. Большинство современных скриптов форумов позволяют отслеживать поведение посетителей на форуме - используемый на этом форуме тоже это делает.
Поэтому, чтобы в онлайне показывать таких посетителей, как роботы - достаточно в коде форума, кроме распознавания куки, добавить чтение переменной окружения HTTP_USER_AGENT, которая передается любым запросом GET.
Разбор логов - вещь совсем другая. Грубо говоря, каждый заход на сайт приводит к записи в лог вебсервера.
Ну, так и так пишется. А потом делай что хочешь - натравливай программы обработки логов или вручную просматривай. Да хоть распечатай и вместо обоев наклей (копирайт мой :))
Формат записи в логе:
Не правда ли, почти все ясно? :)
Блин, как я люблю страницы шириной в полтора экрана, кто бы знал :)
Несколько замечаний: HTTP_USER_AGENT передаётся в добровольном, а не принудительном порядке, кроме того может обрезаться файерволами (к приличным роботам не относится :)). И уж если система передаёт HTTP_USER_AGENT, то уж в не зависимости от типа запроса POST или GET.
Лог содержит 9 полей, а не большее количесвто как могло показаться на первый взгляд :)
Вот их расшифровка
1. IP address У Серёги этот адрес is resolved в имя (звиняйте, русского эквивалента не помню :)), обычно это на сервере не делается, т.к. это лишняя нагрузка при каждом обращении.
2,3 это логин и пароль. Некоторых ботов можно настроить для доступа к закрытым каталогам. Обычно пусты.
4. дата по Гринвичу (GMT) с указанием сдвига. + восточнее Гринвича, - западнее.
(В Москве сейчас +4, зимой +3, -4 это где-то в Америке)
5. Запрос переданный серверу, с указанием метода и протокола. Новых роботов можно определять, анализируя это поле. Кроме ботов только маньяки и некоторые offline browser'ы обращаются к robots.txt :)
Но тут главное не упустить бота, т.к. у некоторых поисковиков один из ботов обращается к robots.txt, а другие уже по сайту ползают.
6. Статус ответа сервера. 200=OK, 403=Forbidden, 404=Not Found и так далее.
7. Размер запрошенного документа (файла)
8. Рефферер. По ссылкам боты не ходят (они их выдерают из html rjlf и обращаются напрямую), так что это поле как правило ботом не заполняется.
9. Самое главное поле. Тот самый HTTP_USER_AGENT. Как правило именно по этому полю и определяют ботов. Однако тут есть засада - некоторые боты прикидываются венниками, то бишь обычными браузерами. Поэтому не худо резолвить IP адрес и по доменному имени смотреть уж не бот ли это был.
Удачи.
Да, незаполненные поля заменяются прочерками. Всегда заполнены только 1, 4, 5,6, и 7 поля. Без 1-го и 5-го сервер не будет знать что и куда отдавать, а про 4,6, 7 сервер заполняет на основании своих данных.
Лог содержит 9 полей, а не большее количесвто как могло показаться на первый взгляд :)
Сказанное, само собой, относится к логам Apache. Другие сервера могут выдавать иные логи, например, майкрософтовский IIS 4.0 пишет в лог 20 полей:
date time c-ip cs-username s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query sc-status sc-win32-status sc-bytes cs-bytes time-taken s-port cs-version cs(User-Agent) cs(Cookie) cs(Referer)
С уважением,
Александр Садовский.
Сказанное, само собой, относится к логам Apache. Другие сервера могут выдавать иные логи...
В таком случае уточню, что сказанное AiK относится только к логам Apache, которые он создает при настройках по умолчанию.
При желании всегда можно настроить Apache, чтобы он выдавал намного более сложные и подробные логи. Только это мало кому нужно. ;)