php - узнать граббер?

12 3
nash
На сайте с 01.04.2006
Offline
171
2514

на сайт ходят чужие грабберы, которые крадут инфу,

некоторых выловил через массив $_SERVER т.е. смотрел ip с которого идут запросы, так вот если под сайт выделен целый ip то при вводе в адресную строку этот ip будет понятно что за сайт, но если на этом айпи есть еще и другие сайты, то просто откроется сайт хостера, сабж такой как выловить всех грабберов? возможно ли узнать не только ip откуда идет обращение, а и сам сайт или еще что-то?

stealthy
На сайте с 15.06.2006
Offline
69
#1

Программа, которая делает запрос к вашему сайту может в минимальном варианте не посылать вам никаких данных, поэтому веб сервер будет знать только то, что кто-то с определенного IP адреса запрашивает информацию с такой-то страницы. В "максимальном" варианте программа может указывать User-agent, принимаемые типы данных, поддержку сжатия, реферер (последний посещенный сайт) и другие параметры.

Поэтому в каком-то случае Вы сможете идентифицировать клиента, который получает данные с вашего сайта по совокупности известной о нем информации, а в каком-то ничего кроме IP вы о нем не узнаете.

Для серверного скрипта зная IP, как Вы правильно полагаете, Вы можете узнать на какой выделенной машине или на какой хостинг-площадке стоит граббер. И все. Если Вы заблокируете этот IP, то с этого хостинга никто данные от Вас получать не сможет. По идее, если Вы не предоставляете никаких данных для серверных скриптов, то есть если у Вам нет "легальных" и "нелегальных" грабберов - блокируйте и все. Пользователи все равно будут видеть то, что им нужно, а грабберы - нет.

Только это не очень эффективным способом окажется, если тот, кто писал граббер работает через анонимные прокси. Но для серверных приложений редкость полноценные решения, которые постоянно обновляют списки проксей и потому их все достаточно надежно можно вычислить и прибить через некоторое время с начала эксплуатации.

А вот поиск самих IP и их блокировка - работа нудная и требующая времени. Писать движок для распознавания таких грабберов та еще работенка. Проще придумать что-то типа авторизации на сайте, так, чтобы грабберы от людей отсеять.

Twilight CMS (http://www.twl.ru): есть Free версия, очень проста и удобна в использовании. Консультирую по любым вопросам. Новый спорт - практическая стрельба (http://nikit.in) - не для офисного планктона.
D
На сайте с 19.05.2006
Offline
38
#2

Используйте $_SERVER['HTTP_USER_AGENT'] - наиболее тупых ботов, не умеющих притворяться отловите на раз. Всякие lwp php libwww wget и подобное.

С умными сложнее, надо смотреть тех кто не скачивает скажем таблицы стилей, или яваскрипты/картинки.

С самыми умными - которые фактически надстройка над ИЕ как правило, поможет только анализ поведения - смотреть не слишком ли много страниц в минуту/час скачано и каких.

Ну и есть такие что хоть тресни от пользователя не отличишь :)

Да, забыл, многие боты почему-то любят протокол HTTP/1.0 , тоже неплохой признак

nash
На сайте с 01.04.2006
Offline
171
#3

ок, спасибо, будем работать 🚬

maximuz
На сайте с 13.11.2006
Offline
35
#4

Пустите пердачу данных по другому порту, не по 80

[Удален]
#5

Не поймите привратно но сам использую грабер.

1. Ставлю ссылку на источник - в тех лентах что использую этого достаточно и нам считаю взаимовыгодно.

2. Грабер тащит не всю страницу а только текст новости используя стартовые и стоповые теги. Сделайте их не уникальными и грабер уйдет пустым.

Мне конечно личто второй вариант не выгоден. Но проблем с сайтами где берутся новости нет в связи с соблюдением всех нюансов соблюдения авторства, но если сайт не хочет отдавать инфу то я ее насильно брать и не буду.

nash
На сайте с 01.04.2006
Offline
171
#6
General:
Не поймите привратно но сам использую грабер.
1. Ставлю ссылку на источник - в тех лентах что использую этого достаточно и нам считаю взаимовыгодно.
2. Грабер тащит не всю страницу а только текст новости используя стартовые и стоповые теги. Сделайте их не уникальными и грабер уйдет пустым.

Мне конечно личто второй вариант не выгоден. Но проблем с сайтами где берутся новости нет в связи с соблюдением всех нюансов соблюдения авторства, но если сайт не хочет отдавать инфу то я ее насильно брать и не буду.

В вашем случае наверное выгодно обоим, но когда говоришь что хотя бы поставили ссылку на источник - просто посылают, и как с такими бороться?

[Удален]
#7

Ну я наверное слукавил :-). Одна проблема была. Я удалил просто все новости (требовалось Письменно разрешение на публикацию). Ну а в целом я привел второй метод - неуникальные теги начала и конца публикации.

Например в конце статьи выводится ссылка на "последнии новости". Если это выводится под каждой статьей то это УЖЕ стоповый тег. Но если хоть на каждой пятой не выводить то уникальность пропадает. Конечно это совсем элементарный пример но тем не менее поработать и над этим можно.

Да. Граберы еще чистят код от ссылок. Не знаю как реально реализовать, но придумайте теги которые в грабере не учитываются и передавайте похабщину на приемный сайт :-). Думаю при желании можно устроить.

А лучше давайте дружить сайтами :) и соблюдать авторское право.

nash
На сайте с 01.04.2006
Offline
171
#8
General:
Ну я наверное слукавил :-). Одна проблема была. Я удалил просто все новости (требовалось Письменно разрешение на публикацию). Ну а в целом я привел второй метод - неуникальные теги начала и конца публикации.

Например в конце статьи выводится ссылка на "последнии новости". Если это выводится под каждой статьей то это УЖЕ стоповый тег. Но если хоть на каждой пятой не выводить то уникальность пропадает. Конечно это совсем элементарный пример но тем не менее поработать и над этим можно.

Да. Граберы еще чистят код от ссылок. Не знаю как реально реализовать, но придумайте теги которые в грабере не учитываются и передавайте похабщину на приемный сайт :-). Думаю при желании можно устроить.

А лучше давайте дружить сайтами :) и соблюдать авторское право.

Дружить конечно нужно ;)

Но вобще у нас не совсем новостной сайт.

Спасибо за советы, с тэгами поэксперементируем.

edogs software
На сайте с 15.12.2005
Offline
775
#9
nash:
на сайт ходят чужие грабберы, которые крадут инфу,
некоторых выловил через массив $_SERVER т.е. смотрел ip с которого идут запросы, так вот если под сайт выделен целый ip то при вводе в адресную строку этот ip будет понятно что за сайт, но если на этом айпи есть еще и другие сайты, то просто откроется сайт хостера, сабж такой как выловить всех грабберов? возможно ли узнать не только ip откуда идет обращение, а и сам сайт или еще что-то?

Если кому-то нужен именно Ваш сайт, да еще плюют на копирайты, то от этого не спастись.

Можно блочить по IP (сильно Вас заботит что другие сайты с того же сервера не будут к Вам попадать?), но это обходится через прокси.

Стартовые/стоповые тэги менять смысл есть, но не особый, все равно при сохранении дизайна Вы особо ничего не придумаете того, на что нельзя будет настроить скрипт.

Вариант использовать javascript для вывода части информации, уже немного напряжнее, но можете обидеть юзеров без javascript-а.

Простейшие грабберы можно отфильтровать просто посмотрев какие заголовки они кидают сайту (все заголовки посмотреть, а не только user_agent) и попытаться зацепиться на них, но это сработает только против или тупых или автоматизированных грабберов.

maximuz:
Пустите пердачу данных по другому порту, не по 80

И отсеять от своего сайта многих людей с файрволами?

Разработка крупных и средних проектов. Можно с криптой. Разумные цены. Хорошее качество. Адекватный подход. Продаем lenovo legion в спб, дешевле магазинов, новые, запечатанные. Есть разные. skype: edogssoft
nash
На сайте с 01.04.2006
Offline
171
#10

но как же все-таки защитить свою информацию?!

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий