Vladislav Komissarov

Рейтинг
0
Регистрация
29.11.2013

То что бот никак не представляется - это была наша техническая недоработка.

Теперь бот в User-Agent будет отдавать: "Mozilla/5.0 (compatible; InterfaxScanBot/1.0; http://scan-interfax.ru)" (обновление планируется сегодня вечером)

В будущих релизах сервиса бот будет обращать внимание на robots.txt и считывать оттуда стандартные правила для поисковиков, например, частоту обращений к серверу, чтобы его не грузить.

О том как заблокировать нежелательных ботов можно почитать тут: http://www.thesitewizard.com/apache/block-bots-with-htaccess.shtml

Например, вот такая конструкция в .htaccess подойдет (не проверял):

BrowserMatchNoCase InterfaxScanBot bad_bot

Order Deny,Allow
Deny from env=bad_bot

Еще раз просим прощения, кому наш робот доставил какие-то неудобства.

LEOnidUKG:
Сначала нужно это, а потом уже добавлять сайты в БД.

Поверьте, мы изначально идем по этому пути.

LEOnidUKG:
Ты сам то заглянул бы в свой сервис:

Полный текст доступен только у лицензированных источников. Во всех остальных вы получите вот это, даже если запросите полный текст: http://grab.by/suki

Уважаемый macrobo, мне все больше кажется, что ваша цель не решить свою проблему, а очернить репутацию нашего сервиса и компании Интерфакс вцелом. Что, собственно, попадает под статью 128.1. УК РФ - "Клевета". Впредь прошу быть более взвешенным в своих рассуждениях.

Итого:

1) Пришлите адрес сайта - исключим его из БД SCAN и вернем все что взяли из интернета обратно в интернет.

2) Если вы заинтересованы в заключении договора и партнерских отчислениях - пришлите адрес сайта и, если Ваш источник действительно интересен, мы начнем процесс.

3) Любой пользователь этого форума может запросить у меня по почте vladislav.komissarov@interfax.ru демо-доступ, где вы убедитесь что мы не предоставляем полный текст статей и тем самым никак не нарушаем закон. Мы поисковый сервис, который агрегирует общедоступную информацию в интернете.

4) На один из ближайших релизов системы запланировано обновление, которое позволит идентифицировать робота и блокировать его через robots.txt.

Дальнейшую полемику предлагаю закончить. По всем остальным вопросам - пишите на почту.

LEOnidUKG:
НетуШ. Сюда выложите список всех IP ваших ботов.

Инфраструктура постоянно масштабируется и даже если мы предоставим текущий пулл IP адресов - это не даст гарантий что завтра робот не начнет ходить с другого адреса.

p.s. Если вы не можете выкладывать адреса своих сайтов в паблик - вы всегда можете прислать мне их на vladislav.komissarov@interfax.ru

Уважаемый, macrobo

Меня зовут Владислав Комиссаров и я имею прямое отношение к проекту scan-interfax.ru.

1) Подскажите, пожалуйста, адрес Вашего сайта - мы сегодня же исключим его из нашей базы данных. Просим прощения, если наш робот доставил Вам неудобства.

2) Изображения, предоставленные Вами в виде доказательства, взяты не из "платной части", а из общедоступной инструкции к системе (стр. 22 и 46) и были созданы в фотошопе. Пришлите, пожалуйста, мне письмо на адрес vladislav.komissarov@interfax.ru и я Вам выдам тестовый доступ, где Вы сможете лично убедиться в законности наших действий. Мы никогда не даем нашим клиентам полные тексты публикаций, если у нас нет соответствующего разрешения от источника.

По поводу воровства на "безвозмездной основе" - это совсем не так. Мы изначально идем по законному пути и заключаем договора с нашими источниками. После заключения договора наши клиенты получают полный текст публикации, а источник получает партнерские отчисление за каждый просмотр его новости. При желании, мы можем заключить договор и с Вашей компанией.

Мы наоборот крайне заинтересованы в заключении договоров со всеми нашими источниками так как это позволит предоставлять нашим клиентам больше информации, но физически этого сделать просто невозможно.