- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
на сайт ходят чужие грабберы, которые крадут инфу,
некоторых выловил через массив $_SERVER т.е. смотрел ip с которого идут запросы, так вот если под сайт выделен целый ip то при вводе в адресную строку этот ip будет понятно что за сайт, но если на этом айпи есть еще и другие сайты, то просто откроется сайт хостера, сабж такой как выловить всех грабберов? возможно ли узнать не только ip откуда идет обращение, а и сам сайт или еще что-то?
Программа, которая делает запрос к вашему сайту может в минимальном варианте не посылать вам никаких данных, поэтому веб сервер будет знать только то, что кто-то с определенного IP адреса запрашивает информацию с такой-то страницы. В "максимальном" варианте программа может указывать User-agent, принимаемые типы данных, поддержку сжатия, реферер (последний посещенный сайт) и другие параметры.
Поэтому в каком-то случае Вы сможете идентифицировать клиента, который получает данные с вашего сайта по совокупности известной о нем информации, а в каком-то ничего кроме IP вы о нем не узнаете.
Для серверного скрипта зная IP, как Вы правильно полагаете, Вы можете узнать на какой выделенной машине или на какой хостинг-площадке стоит граббер. И все. Если Вы заблокируете этот IP, то с этого хостинга никто данные от Вас получать не сможет. По идее, если Вы не предоставляете никаких данных для серверных скриптов, то есть если у Вам нет "легальных" и "нелегальных" грабберов - блокируйте и все. Пользователи все равно будут видеть то, что им нужно, а грабберы - нет.
Только это не очень эффективным способом окажется, если тот, кто писал граббер работает через анонимные прокси. Но для серверных приложений редкость полноценные решения, которые постоянно обновляют списки проксей и потому их все достаточно надежно можно вычислить и прибить через некоторое время с начала эксплуатации.
А вот поиск самих IP и их блокировка - работа нудная и требующая времени. Писать движок для распознавания таких грабберов та еще работенка. Проще придумать что-то типа авторизации на сайте, так, чтобы грабберы от людей отсеять.
Используйте $_SERVER['HTTP_USER_AGENT'] - наиболее тупых ботов, не умеющих притворяться отловите на раз. Всякие lwp php libwww wget и подобное.
С умными сложнее, надо смотреть тех кто не скачивает скажем таблицы стилей, или яваскрипты/картинки.
С самыми умными - которые фактически надстройка над ИЕ как правило, поможет только анализ поведения - смотреть не слишком ли много страниц в минуту/час скачано и каких.
Ну и есть такие что хоть тресни от пользователя не отличишь :)
Да, забыл, многие боты почему-то любят протокол HTTP/1.0 , тоже неплохой признак
ок, спасибо, будем работать 🚬
Пустите пердачу данных по другому порту, не по 80
Не поймите привратно но сам использую грабер.
1. Ставлю ссылку на источник - в тех лентах что использую этого достаточно и нам считаю взаимовыгодно.
2. Грабер тащит не всю страницу а только текст новости используя стартовые и стоповые теги. Сделайте их не уникальными и грабер уйдет пустым.
Мне конечно личто второй вариант не выгоден. Но проблем с сайтами где берутся новости нет в связи с соблюдением всех нюансов соблюдения авторства, но если сайт не хочет отдавать инфу то я ее насильно брать и не буду.
Не поймите привратно но сам использую грабер.
1. Ставлю ссылку на источник - в тех лентах что использую этого достаточно и нам считаю взаимовыгодно.
2. Грабер тащит не всю страницу а только текст новости используя стартовые и стоповые теги. Сделайте их не уникальными и грабер уйдет пустым.
Мне конечно личто второй вариант не выгоден. Но проблем с сайтами где берутся новости нет в связи с соблюдением всех нюансов соблюдения авторства, но если сайт не хочет отдавать инфу то я ее насильно брать и не буду.
В вашем случае наверное выгодно обоим, но когда говоришь что хотя бы поставили ссылку на источник - просто посылают, и как с такими бороться?
Ну я наверное слукавил :-). Одна проблема была. Я удалил просто все новости (требовалось Письменно разрешение на публикацию). Ну а в целом я привел второй метод - неуникальные теги начала и конца публикации.
Например в конце статьи выводится ссылка на "последнии новости". Если это выводится под каждой статьей то это УЖЕ стоповый тег. Но если хоть на каждой пятой не выводить то уникальность пропадает. Конечно это совсем элементарный пример но тем не менее поработать и над этим можно.
Да. Граберы еще чистят код от ссылок. Не знаю как реально реализовать, но придумайте теги которые в грабере не учитываются и передавайте похабщину на приемный сайт :-). Думаю при желании можно устроить.
А лучше давайте дружить сайтами :) и соблюдать авторское право.
Ну я наверное слукавил :-). Одна проблема была. Я удалил просто все новости (требовалось Письменно разрешение на публикацию). Ну а в целом я привел второй метод - неуникальные теги начала и конца публикации.
Например в конце статьи выводится ссылка на "последнии новости". Если это выводится под каждой статьей то это УЖЕ стоповый тег. Но если хоть на каждой пятой не выводить то уникальность пропадает. Конечно это совсем элементарный пример но тем не менее поработать и над этим можно.
Да. Граберы еще чистят код от ссылок. Не знаю как реально реализовать, но придумайте теги которые в грабере не учитываются и передавайте похабщину на приемный сайт :-). Думаю при желании можно устроить.
А лучше давайте дружить сайтами :) и соблюдать авторское право.
Дружить конечно нужно ;)
Но вобще у нас не совсем новостной сайт.
Спасибо за советы, с тэгами поэксперементируем.
на сайт ходят чужие грабберы, которые крадут инфу,
некоторых выловил через массив $_SERVER т.е. смотрел ip с которого идут запросы, так вот если под сайт выделен целый ip то при вводе в адресную строку этот ip будет понятно что за сайт, но если на этом айпи есть еще и другие сайты, то просто откроется сайт хостера, сабж такой как выловить всех грабберов? возможно ли узнать не только ip откуда идет обращение, а и сам сайт или еще что-то?
Если кому-то нужен именно Ваш сайт, да еще плюют на копирайты, то от этого не спастись.
Можно блочить по IP (сильно Вас заботит что другие сайты с того же сервера не будут к Вам попадать?), но это обходится через прокси.
Стартовые/стоповые тэги менять смысл есть, но не особый, все равно при сохранении дизайна Вы особо ничего не придумаете того, на что нельзя будет настроить скрипт.
Вариант использовать javascript для вывода части информации, уже немного напряжнее, но можете обидеть юзеров без javascript-а.
Простейшие грабберы можно отфильтровать просто посмотрев какие заголовки они кидают сайту (все заголовки посмотреть, а не только user_agent) и попытаться зацепиться на них, но это сработает только против или тупых или автоматизированных грабберов.
Пустите пердачу данных по другому порту, не по 80
И отсеять от своего сайта многих людей с файрволами?
но как же все-таки защитить свою информацию?!