Качественное определение пауков

0

неДима

31 октября 2005, 15:10

1143

Добрый!

Имеется ли какой-либо алгоритм точного определения пауков [PHP, ASP]? Имею ввиду такой алгоритм, который не требует постоянных обновлений таблиц БД, в которых хранятся ip или HTTP_USER_AGENT пауков.

НД

0

неДима

1 ноября 2005, 05:57

#1

Переформулирую.

Возможен ли разбор HTTP_USER_AGENT при помощи строковых функций, регулярных выражений с последующим точным определением поисковик это или нет без использования заранее заготовленного списка HTTP_USER_AGENT поисковиков? Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?

445

Таггу x_x

1 ноября 2005, 06:05

#2

неДима:
Переформулирую.

Возможен ли разбор HTTP_USER_AGENT при помощи строковых функций, регулярных выражений с последующим точным определением поисковик это или нет без использования заранее заготовленного списка HTTP_USER_AGENT поисковиков? Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?

Ну разберете Вы его, а дальше то что? Не совсем понял... Без списка бота можно определять только по поведению :)

И HTTP_USER_AGENT тут ни причем.

☠️☠️☠️

482

Sergey Petrenko

1 ноября 2005, 06:41

#3

Культурный робот обычно всегда спрашивает robots.txt. Правда, любопытный пользователь тоже может его спросить.

Определить же, робот это или нет только по строке User-agent тоже можно, но не гарантированно — у многих роботов там стоит URL, по которому можно найти подробную информацию о нем. Но это совсем необязательно.

Научите бороться с DDoS-атаками Яндекс кобласит Google добавил в список

257

AiK

1 ноября 2005, 17:58

#4

Сергей, а если ботов у поисковика несколько, а к robots.txt обращается только один из них?

К тому же, в любом случае, запрос к robots.txt и к любой другой странице это разные запросы, а следовательно базу вести таки придётся. Другое дело, что робота можно довольно успешно определить по заголовкам HTTP запроса, правда опять же всякие экзотические браузеры или посетители, приходящие через прокси могут быть причислены к роботам.

Яндекс ддосит сайт. Что Упал доход Яндекс кобласит

M

62

Monas

1 ноября 2005, 23:15

#5

Или же без сравнения с заранее заготовленным списком HTTP_USER_AGENT или IP, требующим постоянного обновления обойтись нельзя?

неДима, и по USER_AGENT не выйдет ( и по поведению то же). Легко пробить. Мой броузер например, представляется googlebot 2.1 по умолчанию, и по прочим признакам соответствует заходу бота (кроме ip).

Без ip не обойтись. А лучше и то и другое.

no_relevant

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Дзен реализовал для авторов возможность вывода денег через СПБ