- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый!
Имеется ли какой-либо алгоритм точного определения пауков [PHP, ASP]? Имею ввиду такой алгоритм, который не требует постоянных обновлений таблиц БД, в которых хранятся ip или HTTP_USER_AGENT пауков.
Переформулирую.
Возможен ли разбор HTTP_USER_AGENT при помощи строковых функций, регулярных выражений с последующим точным определением поисковик это или нет без использования заранее заготовленного списка HTTP_USER_AGENT поисковиков? Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?
Переформулирую.
Возможен ли разбор HTTP_USER_AGENT при помощи строковых функций, регулярных выражений с последующим точным определением поисковик это или нет без использования заранее заготовленного списка HTTP_USER_AGENT поисковиков? Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?
Ну разберете Вы его, а дальше то что? Не совсем понял... Без списка бота можно определять только по поведению :)
И HTTP_USER_AGENT тут ни причем.
Культурный робот обычно всегда спрашивает robots.txt. Правда, любопытный пользователь тоже может его спросить.
Определить же, робот это или нет только по строке User-agent тоже можно, но не гарантированно — у многих роботов там стоит URL, по которому можно найти подробную информацию о нем. Но это совсем необязательно.
Сергей, а если ботов у поисковика несколько, а к robots.txt обращается только один из них?
К тому же, в любом случае, запрос к robots.txt и к любой другой странице это разные запросы, а следовательно базу вести таки придётся. Другое дело, что робота можно довольно успешно определить по заголовкам HTTP запроса, правда опять же всякие экзотические браузеры или посетители, приходящие через прокси могут быть причислены к роботам.
неДима, и по USER_AGENT не выйдет ( и по поведению то же). Легко пробить. Мой броузер например, представляется googlebot 2.1 по умолчанию, и по прочим признакам соответствует заходу бота (кроме ip).
Без ip не обойтись. А лучше и то и другое.