Как различить робота и качающего?

123
Avatar
На сайте с 18.05.2003
Offline
168
#11

Толи я что то не понимаю, толи лыжи не едут ;) у меня пример noable не работает :((

специально засандалил такой хтакцесс, и сам же дископампером 3.1 попробовал.. усе качает. Кто поможет ?

равно как и с примера http://www.webmasterworld.com/forum13/687-6-25.htm :((

может у моего хостера с настройками что то ??

V1
На сайте с 07.07.2002
Offline
119
#12

Я бы поступил так:

1) выделил бы ip всех известных картиночных роботов и им бы подсовывал нужную картинку

2) всех остальных даунлоад-менеджеров можно определять эмпирически. Т.е. например ввести такой параметр как число скачек в ед.времени. По идее робот делает запросы в ед.времени чаще чем человек, чем собст-но и перегружает сервер. И тех агентов, которые делают запросы чаще чем n в m единиц времени - посылал бы подальше: определял ip и банил :D

3) если не первое и не второе - значит нормальный посетитель

А по юзер-агенту очень просто все решается - в Телепорте можно любое значение проставить + отключить следование инструкциям robots.txt. Можно и выставить время паузы между запросами, но кто догадается?

Шпарил парень, парил парик (скороговорка)
F4
На сайте с 16.09.2002
Offline
35
#13
Как писал Avatar
Толи я что то не понимаю, толи лыжи не едут ;) у меня пример noable не работает :((
специально засандалил такой хтакцесс, и сам же дископампером 3.1 попробовал.. усе качает.

Так точно! У нас тоже не работает. Рад, что не одни мы такие 🍻

С уважением, Александр Грин
N
На сайте с 09.05.2003
Offline
51
#14
Как писал Avatar
Толи я что то не понимаю, толи лыжи не едут ;) у меня пример noable не работает :((
специально засандалил такой хтакцесс, и сам же дископампером 3.1 попробовал.. усе качает. Кто поможет ?
равно как и с примера http://www.webmasterworld.com/forum13/687-6-25.htm :((
может у моего хостера с настройками что то ??

сам не проверял, но должна работать. Ты как файл хтаксес на сервак лил? Просто там тема, что нужно сначала залить без точки впереди, а потом только точку ставить, иначе не работает.

Век живи - век учись.
N
На сайте с 09.05.2003
Offline
51
#15

http://www.master-x.com/articles/article/57 - вот нашел, где видел этот пример. У самого руки не дошли проверить :)

Avatar
На сайте с 18.05.2003
Offline
168
#16

ErrorDocument 404 http://сайт.ru/404.html

RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^DISCo [OR]

RewriteCond %{HTTP_USER_AGENT} ^DISCoPump [OR]

RewriteCond %{HTTP_USER_AGENT} ^DISCoPump.* [OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport\ Pro [OR]

RewriteCond %{HTTP_USER_AGENT} ^Teleport [OR]

RewriteRule ^.*$ http://сайт.ru/null.gif [L]

так мой хтакцесс сейчас выглядит. и что интересно - некоторые хтмлы качаются нормально, на некоторые дископампер пишет, что документ не содержит данных, а некоторые и впрямь как нулл.гиф грузит :)

Только фишка в том, что каждый раз в произвольном порядке :((

"Бэн, это Данила. Ай нид хелп." :)

F4
На сайте с 16.09.2002
Offline
35
#17
Как писал Valery1
Я бы поступил так:
1) выделил бы ip всех известных картиночных роботов и им бы подсовывал нужную картинку

Я правильно понял?

Вы бы занялись cloaking'ом для того, что бы проиндексировать одну определённую картинку вместо всех, в том случае когда было необходимо установать бесприпядственный досуп "P" робота ко всем картинкам? Поворот...


2) всех остальных даунлоад-менеджеров можно определять эмпирически. Т.е. например ввести такой параметр как число скачек в ед.времени. По идее робот делает запросы в ед.времени чаще чем человек, чем собст-но и перегружает сервер. И тех агентов, которые делают запросы чаще чем n в m единиц времени - посылал бы подальше: определял ip и банил :D

И что же мы получили?

Мы нашли всех роботов по кол-ву конекций, и забанили.....

Теперь мы в десятке! ;)

Если до того как мы начинаем банить всё что похоже на робота , выдёрнем из общей стаи тех роботов которые банить не стоит,

то получится довольно внушительный список User-Agent'ов, который

к слову и составить то довольно сложная задача.

В данной ситуации я думаю проще запрещать кого-то определённого,

чем запретить всех с исключениями.


3) если не первое и не второе - значит нормальный посетитель

ИМХО если и первое и второе, то кол-во нормальных посетителей начнёт резко уменьшатся :)

V1
На сайте с 07.07.2002
Offline
119
#18
Как писал fire42

Я правильно понял?
Вы бы занялись cloaking'ом для того, что бы проиндексировать одну определённую картинку вместо всех, в том случае когда было необходимо установать бесприпядственный досуп "P" робота ко всем картинкам? Поворот...

Нужную картинку - это может быть ведь все что угодно, правильно? Хотите ставьте роботу 1метровый тиф, хотите 50килограмовый джипег. Я не говорил, о том что нужно ставить определённую картинку вместо всех. Или Вам нужно все разжевывать до состояния пыли?

Как писал fire42

И что же мы получили?
Мы нашли всех роботов по кол-ву конекций, и забанили.....
Теперь мы в десятке!

Если до того как мы начинаем банить всё что похоже на робота , выдёрнем из общей стаи тех роботов которые банить не стоит,
то получится довольно внушительный список User-Agent'ов, который
к слову и составить то довольно сложная задача.
В данной ситуации я думаю проще запрещать кого-то определённого,
чем запретить всех с исключениями.

Вы видимо плохо знакомы с поведением нормальных роботов. Поведение нормальных роботов резко отличается от поведения даунлоад-менеджеров, которые качают НЕПРЕРЫВНО и МНОГО. И если у Вас скачали 100 страниц за 100 секунд - это уже аномалия, т.е. признак того, что СКОРЕЕ ВСЕГО - это даунлоад-менеджер. Далее. "Банить" в вашем контексте - это подсунуть 1пиксельный гиф, а не то что Вы подумали (буду кавычить в следующий раз). Речь не идет об изменении хтмл-кода.

Как писал fire42

ИМХО если и первое и второе, то кол-во нормальных посетителей начнёт резко уменьшатся

Если у кого-то уменьшается - значит у кого-то другого растет :D

F4
На сайте с 16.09.2002
Offline
35
#19
Как писал Valery1

Нужную картинку - это может быть ведь все что угодно, правильно? Хотите ставьте роботу 1метровый тиф, хотите 50килограмовый джипег. Я не говорил, о том что нужно ставить определённую картинку вместо всех. Или Вам нужно все разжевывать до состояния пыли?

Видимо нужно, потому как пока я не смог понять зачем нам

подсовывать метровый тиф картиночному роботу зная его ip.

В данном случае имхо имеет смысл его вообще не трогать,

наоборот оберегая от всяческих органичений.


Вы видимо плохо знакомы с поведением нормальных роботов. Поведение нормальных роботов резко отличается от поведения даунлоад-менеджеров, которые качают НЕПРЕРЫВНО и МНОГО. И если у Вас скачали 100 страниц за 100 секунд - это уже аномалия, т.е. признак того, что СКОРЕЕ ВСЕГО - это даунлоад-менеджер.

Я не отрицаю того, что я плохо знаком с поведением нормальных роботов, резкая разница в кол-ве коннекций между роботом-индексёром и даунлоад-менеджером может являтся параметром для отлова последнего, существуют ли у кого-нибудь какие-либо цифры по этому вопросу?


Далее. "Банить" в вашем контексте - это подсунуть 1пиксельный гиф, а не то что Вы подумали (буду кавычить в следующий раз). Речь не идет об изменении хтмл-кода.

На самом деле я бы подсунул html с объяснением закрытия доступа.😎


Если у кого-то уменьшается - значит у кого-то другого растет :D

Вот мы и приделали Ломоносовский закон "о сохранении.." к трафику с Яндекса :D вот оно влияние профессии :D

V1
На сайте с 07.07.2002
Offline
119
#20
Как писал fire42
В данном случае имхо имеет смысл его вообще не трогать,
наоборот оберегая от всяческих органичений.

Уже лучше :)

Как писал fire42
существуют ли у кого-нибудь какие-либо цифры по этому вопросу?

Эмпирически. Цифр таких ни у кого нет конечно. Даже у меня :) Нужно лезть в логи, смотреть и сравнивать.

Как писал fire42
На самом деле я бы подсунул html с объяснением закрытия доступа.

Зачем? ХТМЛ-код лучше не трогать.

Как писал fire42
Вот мы и приделали Ломоносовский закон "о сохранении.." к трафику с Яндекса вот оно влияние профессии

Профессия у меня другая, а закон что дышло :D

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий