То что бот никак не представляется - это была наша техническая недоработка.
Теперь бот в User-Agent будет отдавать: "Mozilla/5.0 (compatible; InterfaxScanBot/1.0; http://scan-interfax.ru)" (обновление планируется сегодня вечером)
В будущих релизах сервиса бот будет обращать внимание на robots.txt и считывать оттуда стандартные правила для поисковиков, например, частоту обращений к серверу, чтобы его не грузить.
О том как заблокировать нежелательных ботов можно почитать тут: http://www.thesitewizard.com/apache/block-bots-with-htaccess.shtml
Например, вот такая конструкция в .htaccess подойдет (не проверял):
BrowserMatchNoCase InterfaxScanBot bad_bot Order Deny,Allow Deny from env=bad_bot
Еще раз просим прощения, кому наш робот доставил какие-то неудобства.
Поверьте, мы изначально идем по этому пути.
Полный текст доступен только у лицензированных источников. Во всех остальных вы получите вот это, даже если запросите полный текст: http://grab.by/suki
Уважаемый macrobo, мне все больше кажется, что ваша цель не решить свою проблему, а очернить репутацию нашего сервиса и компании Интерфакс вцелом. Что, собственно, попадает под статью 128.1. УК РФ - "Клевета". Впредь прошу быть более взвешенным в своих рассуждениях.
Итого:
1) Пришлите адрес сайта - исключим его из БД SCAN и вернем все что взяли из интернета обратно в интернет.
2) Если вы заинтересованы в заключении договора и партнерских отчислениях - пришлите адрес сайта и, если Ваш источник действительно интересен, мы начнем процесс.
3) Любой пользователь этого форума может запросить у меня по почте vladislav.komissarov@interfax.ru демо-доступ, где вы убедитесь что мы не предоставляем полный текст статей и тем самым никак не нарушаем закон. Мы поисковый сервис, который агрегирует общедоступную информацию в интернете.
4) На один из ближайших релизов системы запланировано обновление, которое позволит идентифицировать робота и блокировать его через robots.txt.
Дальнейшую полемику предлагаю закончить. По всем остальным вопросам - пишите на почту.
Инфраструктура постоянно масштабируется и даже если мы предоставим текущий пулл IP адресов - это не даст гарантий что завтра робот не начнет ходить с другого адреса.
p.s. Если вы не можете выкладывать адреса своих сайтов в паблик - вы всегда можете прислать мне их на vladislav.komissarov@interfax.ru
Уважаемый, macrobo
Меня зовут Владислав Комиссаров и я имею прямое отношение к проекту scan-interfax.ru.
1) Подскажите, пожалуйста, адрес Вашего сайта - мы сегодня же исключим его из нашей базы данных. Просим прощения, если наш робот доставил Вам неудобства.
2) Изображения, предоставленные Вами в виде доказательства, взяты не из "платной части", а из общедоступной инструкции к системе (стр. 22 и 46) и были созданы в фотошопе. Пришлите, пожалуйста, мне письмо на адрес vladislav.komissarov@interfax.ru и я Вам выдам тестовый доступ, где Вы сможете лично убедиться в законности наших действий. Мы никогда не даем нашим клиентам полные тексты публикаций, если у нас нет соответствующего разрешения от источника.
По поводу воровства на "безвозмездной основе" - это совсем не так. Мы изначально идем по законному пути и заключаем договора с нашими источниками. После заключения договора наши клиенты получают полный текст публикации, а источник получает партнерские отчисление за каждый просмотр его новости. При желании, мы можем заключить договор и с Вашей компанией.
Мы наоборот крайне заинтересованы в заключении договоров со всеми нашими источниками так как это позволит предоставлять нашим клиентам больше информации, но физически этого сделать просто невозможно.