Scan-interfax или воровство контента в масштабах страны

VK
На сайте с 29.11.2013
Offline
0
#11
LEOnidUKG:
НетуШ. Сюда выложите список всех IP ваших ботов.

Инфраструктура постоянно масштабируется и даже если мы предоставим текущий пулл IP адресов - это не даст гарантий что завтра робот не начнет ходить с другого адреса.

p.s. Если вы не можете выкладывать адреса своих сайтов в паблик - вы всегда можете прислать мне их на vladislav.komissarov@interfax.ru

LEOnidUKG
На сайте с 25.11.2006
Offline
1769
#12
это не даст гарантий что завтра робот не начнет ходить с другого адреса.

useragent вашего бота тоже меняется? Он хоть как-то себя помечает или прикидывается обычным пользователем?

---------- Добавлено 29.11.2013 в 17:28 ----------

Если вы не можете

Я лично не собираюсь каждому кто парсит у меня новости, писать письма. Заняться мне больше нечем.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
Mik Foxi
На сайте с 02.03.2011
Offline
1201
#13

Белые боты всегда ходят под своими именами. Если бот шифруется юзером - это вредоносный бот.

Антибот, антиспам, веб фаервол, защита от накрутки поведенческих: https://antibot.cloud/ (Зеркало: https://антибот.рф/ ) Форум на замену серчу: https://foxi.biz/
macrobo
На сайте с 07.04.2011
Offline
99
#14
Мы изначально идем по законному пути и заключаем договора с нашими источниками.

Это не так. Ваш бот на протяжении длительного времени воровал контент с сайта нашего информ.агенства (как было указано, мне известны еще два ресурса, с которых до недавнего времени также шло выкачивание статей). Никто и никаких договоров не присылал и не спрашивал разрешения.

После заключения договора наши клиенты получают полный текст публикации, а источник получает партнерские отчисление за каждый просмотр его новости

Опять ваши слова не согласуются с действительностью. У меня имеется текст договора, который вы предлагаете к заключению. Вот выдержки из него:

предоставляет ЗАО «Интерфакс» (далее «Интерфакс») следующие права по использованию Издания в рамках своей деятельности
- неисключительное право на включение Издания и его частей, в ИБД «СКАН»
- неисключительное право на сообщение, распространение и использование Издания или его частей посредством базы данных «СКАН» с обязательной ссылкой на Издание и его Правообладателя;
- размещать в составе базы данных «СКАН» Издания и его части в том виде, в котором они опубликованы на сайте Правообладателя;
2. Предоставление указанных прав и Издания осуществляется на безвозмездной основе.

Начнем с того, что в вашем договоре нет и слова про «источник получает партнерские отчисление». Вы хотите получать контент (не часть, а именно полный текст, согласно пунктам договора «на включение Издания и его частей») на безвозмездной основе, при этом получая выгоду с продажи платного доступа к базе.

а из общедоступной инструкции к системе (стр. 22 и 46) и были созданы в фотошопе.

Это ваша документация. В ней четко указано на то, что вы агрегируете и предоставляете полный текст статей. К тому же, вы сами подтвердили, что «После заключения договора наши клиенты получают полный текст публикации».

В большинстве случаев, вы не утруждаете себя «заключением» договора, а проста начинаете брать объекты авторского права.

Подскажите, пожалуйста, адрес Вашего сайта - мы сегодня же исключим его из нашей базы данных.

Благодарю за отзывчивость… Проще заблокировать все ваши подсети.

я Вам выдам тестовый доступ, где Вы сможете лично убедиться в законности наших действий.

И почему это только сейчас вы начали говорить о законности? На протяжении длительного времени вы не стеснялись нарушать закон.

Белые боты всегда ходят под своими именами. Если бот шифруется юзером - это вредоносный бот.

Вот именно. Как было указано, бот интерфакса не имеет какого-либо описания, не имеет user-agent и, соответственно, не читает robots.txt. Т.е. все сделано так, чтобы любому системному администратору было сложно выследить и заблокировать его. Благо есть люди, которые дотошно анализируют логии серверов и выявляют подобных вредителей.

это не даст гарантий что завтра робот не начнет ходить с другого адреса.

Ну, придется вычислять все адреса вашего бота (скрывающего свое существование) и блокировать их.

P.S. Цель данной темы не поиск ответственных или виновных за данное положение вещей. Цель: предупредить держателей любых новостных ресурсов (блогов тоже) и найти наиболее оптимальный вариант пресечения подобной деятельности.

юни
На сайте с 01.11.2005
Offline
930
#15

macrobo, а почему Вы думаете, что с ip "Plusinfo Isp" тоже работает сканирующий бот?

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
macrobo
На сайте с 07.04.2011
Offline
99
#16
"Plusinfo Isp" тоже работает сканирующий бот?

Разве я указываю где-либо на это? Мной был приведен список ip адресов, принадлежащих или используемых сервисами интерфакса.

Бот скан-интерфакса работает с ip 46.28.16.248-46.28.16.249. Но, как указал уважаемый Владислав, совсем не обязательно, что робот и впредь будет иметь данный адрес.

юни
На сайте с 01.11.2005
Offline
930
#17
macrobo:
принадлежащих или используемых

Дело в том, что не все эти ip принадлежат Интерфаксу - соответственно, и использование под вопросом.

macrobo
На сайте с 07.04.2011
Offline
99
#18
не все эти ip принадлежат Интерфаксу

Спасибо, учтём. Было бы хорошо составить полный список ip, с которых может ходить их бот

maximuch
На сайте с 01.11.2012
Offline
74
#19

Как заактивничали-то :) Небось предчувствие массовых негодований, которые гипотетически могут превратиться в иски.

Юрист в IT (/ru/forum/961936) - Юридический мануал для арбитража (https://vk.com/doc5937496_389217426)
юни
На сайте с 01.11.2005
Offline
930
#20
macrobo:
Было бы хорошо составить полный список

В этом и проблема. При отсутствии юзер-агента бот может ходить с, теоретически, любых сетей, и тогда даже полнотекстовый скан адресного пространства по ключу "interfax" мало что даст.

В этом случае остаются только общие методы защиты от парсинга (таймауты на запросы, динамическая вёрстка с переименованием тегов и полей, переход по контрольным ссылкам, видимым только для ботов, скриптовые методы и пр.).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий