SilverMaster, ну, это у своих технарей лучше узнавать, кто за движок/апач отвечает.
Они тебе нагрузку создают на сервер, вот и отсеки всех, кто скачивает больше страницы в секунду, например. Точный интервал лучше по статистике определить, дабы не отсечь шутстрых, но всё-таки пользователей, а не ботов.
Ботнет, палюбасу. Разные подсети, разные владельцы, разные регистраторы, разные роуты, разные маршруты. Но вот левые хуизы у американцев говорят обо многом.
В общем, их нужно по нагрузке отличать. Легче с ними часть копеек отрубить, чем потом с хостером разбираться (и таки да, ты ему скинь базу, нехай поразмыслят и в работу включатся, после НГ-то).
Лично я знаю около десятка контор. Называть не буду (они мои клиенты). Так нормально?
А, это... Переписку я вёл где-то с год назад, с Алёной Суворовой, если не ошибаюсь.
Практически дословно: "мы не приветствуем использование нашего xml-сервиса для задач, не связанных с поиском по сайту и похожих. Если Вы планируете делать множество запросов к Яндексу (речь шла об 1-10 млн. в сутки), то мы оставляем за собой право приостанавливать обработку таких запросов. Точную цифру сообщить не можем".
Так что это пройденный этап.
RussianDomainer, у Вас есть комания, зарегистрированная в Штатах?
У меня есть. Правда, я не оптимизатор, пардон.
Ботнеты здесь не при чём. Но ты бы ещё 99% населения упомянул, которые слова "serp" и не слышали никогда.
Я говорю не о любителях, во всех их разновидностях, которые раз в апдейт проверяют пяток своих сателлитов, а о крупных конторах, биржах, аггрегаторах, и отдельных людях, создающих всякие "картины Рунета". Вот они как раз, при всей своей малочисленности, генерируют основной сео-трафик.
Кстати, возможно, через пару месяцев, я смогу значительно более точно оценить процент "одиночек" в формировании этого трафа.
Платный вариант чего, Я.XML? Это где такой?
Ну, похоже, что действительно кто-то из ботнета выжимает остатки... причём американские пулы, судя по всему, уже проверяются регистратором на предмет спама и прочих абуз, а райп, как всегда, не шевелится.
Поскольку в noc`и писать бесполезно, можно только к провайдеру обратиться (или к хостеру, а он сам потом всё сделает), на предмет рассмотрения твоей собранной базы, чтобы передали их регистраторам и аплинкам, для более оперативного реагирования.
А так, тактика нормальная, подсовывай им всякий хлам и далее. Можно, кстати, по региональному признакому блокирнуть - зачем тебе всякие дубайско-штатовские непоймикто?
SilverMaster, кхм... ну, давай в студию штук пять разных.
Смотри хуизы и трассировку.
Будет давать нагрузку - в бан. А если не нагружает сервак, то и ладно.
Сеткой из множества подсетей. А 10К, это всего лишь 40 блоков /24, ими Гугл особо не попарсишь.
Отнюдь. Как раз для больших объёмов XML не годится.
Ну, это до той поры, пока картина трафика формируется по "средней активности". А когда ты даёшь десятую (и выше) часть поискового трафика, то ты воленс-неволенс делаешь свой вклад в изменение картины этой средней загрузки. В свою, разумеется, пользу.
А потом на основе всяких публичных метрик выходят статьи, а-ля "типичный пользователь Рунета в новом году предпочитает глубже анализировать выдачу, активно пользуется специфическими запросами поисковых систем, и всё чаще выходит в Сеть с мобильных устройств. Всё это говорит о том, что технологии, из повседневной части нашей жизни, постепенно превращаются в насущно необходимую потребность". ;)
Мы, похоже, мало пересекаемся в темах на форуме. :) Публичные, анонимные, элитные, всякие крекс-пекс-фекс-сокс прокси, родом из Гондураса и Кампучии - я не знаю, кому нужны. Рапидшарщикам каким-нить, или на форум/почту зарубежные зайти.
Для парсинга же ПС существуют промышленнные решения, на два-три порядка мощнее, всех этих невинных занзибарских шалостей.
SilverMaster, та полно. IP-то не подделаешь (вернее, дорого это весьма). Так что, независимо от куко-заголовков, парсера всегда можно вычислить по адресу.
Если это ботнет, то пеняй юзеру, чтобы машину чистил, ну а если белый адрес, то имеет смысл поговорить с провайдером про такую активность.