Как вычислить "грабера" контента

123
J
На сайте с 08.06.2006
Offline
844
#11

какой формат логов веб сервера? Какую инфу там можно узнать? У всех серверов формат один и тот же?

banshee(oleg)
На сайте с 12.08.2007
Offline
140
#12

Боюсь, тут случай более тяжелый, чем показалось в начале топика 😆😆😆

J
На сайте с 08.06.2006
Offline
844
#13
banshee(oleg):
Боюсь, тут случай более тяжелый, чем показалось в начале топика 😆😆😆

уверен, что Вы не знаете каков формат логов веб сервера!

banshee(oleg)
На сайте с 12.08.2007
Offline
140
#14
joost:
уверен, что Вы не знаете каков формат логов веб сервера!

- текстовый? ☝

J
На сайте с 08.06.2006
Offline
844
#15
banshee(oleg):
- текстовый? ☝

да я не о том формате.

Кроме ip посетителя, откуда пришол, время визита, броузер, что еще можно увидеть в логах?

J
На сайте с 08.06.2006
Offline
844
#16
banshee(oleg):
- текстовый? ☝

да я не о том формате.

что кроме айпишника, времени, откуда пришол, какой броузер может быть в логах?

TNet
На сайте с 23.05.2007
Offline
17
#17

Есть вариант "в лоб": поставьте бесплатную версию cnstats. Там есть такой отчет - количество захождейни с одного IP. Будет список, в нем ваш воришка. Потом создадите на каждый частозаходящий IP фильтр и посмотрите UserAgent, возможно это позволит вычислить робота (по специфичному UA).

Как уже правильно сказали гарантий нет. Если ваш контент стоит того, его будут тырить независимо от ваших изысканий, тем более что в "$ip <> и т.д.", как вы говорите, не очень сильны. Но поробовать стоит :)

pelvis
На сайте с 01.09.2005
Offline
345
#18
Sinless:
бы на Вашем месте пошёл на следующую уловку.

Создайте скажем фиктивную новость "Авария на мосту. Количество пострадавших автомобилей достигает $i единиц".
Где $i генерируется случайно(1 раз на IP, записывается в сессию) и сопоставляется в дальнейшем с IP адресом посетителя. Посмотрите потом на стороннем ресурсе новость и посмотрите количество по своей таблице
$_SERVER['REMOTE_ADDR'] <> $i
Sinless вне форума Send a pager message to Sinless Добавить отзыв для Sinless Пожаловаться на это сообщение Ответить с цитированием

Очень хорошая уловка. Можно упростить задачу, используя для этого Гугл. Пишете несуществующую новость с очень хитрым и специфическим названием, а потом просто смотрите где она проиндексировалась. Работает, если конечно по rss подписке остальным не отдаете сами :)

Продаю вывески. Задарма и задорого (https://www.ledsvetzavod.ru/)
Independence
На сайте с 29.10.2005
Offline
428
#19

По логам не всегда можно определить, т.е. вы увидели PHP-скрипт - это просто, но грамотный программист в скрипте подставил бы описание браузера и тогда понять, что это робот заходил, а не человек по логам нельзя.

Я, напр., изучаю статистику еще по расширениям (.CGI, .RSS, .WML и пр.) и названиям файлов (WAP.HTML, FORUM.HTML и пр.), которые мне наиболее интересны. Таким образом можно отслеживать количество обращений к этим файлам за сутки, когда и кем это осуществлялось. Например, практически ежедневно я наблюдаю, что кто-то пытается запостить мне на форум какую-то шнягу скриптом и если бы не самописная капча, то думаю, что он весь бы бы заспамлен. Причем есть персонаж, который то ли на автопилот все это дело поставил, то ли еще что, но его скрипт пытается сделать это регулярно несколько раз на протяжении суток. Смысла какого-то в этом я не вижу абсолютно. Я могу представить, если бы человек пытался поломать мою капчу, но тогда скорее всего была бы серия обращений к файлу CGI форума (такое я тоже встречал в логах), а это просто какой-то идиотизм имхо. Т.е. он занимается не тем, что контент тягает, а тем, что пытается что-то опубликовать скриптом.

Что в вашем случае можно сделать - поставить какую-то тупую новость и потом пробить по поисковикам (в т.ч. советую пробивать поиск по блогам, по новостям в Яндексе). "Метод пускания блох", когда вы перемешиваете латинские буквы с русскими (чтобы на глаз было незаметно), ставите в тексте еще какие-то специальные знаки - тогда новость может быть вполне нормальной (по содержанию), но в поисковиках вы именно сможете накопать вора, если он латинские буквы на русские не переправит (вручную-а это извините за выражение лишний гемор и думаю, что большинство воров контента это просто не заметит и ничего не будет переправлять).

Как я и описал выше, вы можете сделать отдельную страницу с отличающимся расширением (или можно попробовать и по названию страницы) и отследить обращения только к ней. При этом расширение не обязательно должно быть экзотическим. Напр., если у вас страницы в виде .HTM, то это страницу вы можете сделать как .HTML или .SMHTL И таким образом в логах даже если вы не умеете программировать, вы сможете отловить все обращения к ней.

J
На сайте с 08.06.2006
Offline
844
#20

Вот нашел айпишник 64.247.56.250. Делает по 100-200 заходов на сайт без реферер и агент. 100% робот. на самом айпишнике сервер (наверное хостинг). что еще можно узнать по нему?

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий