Технология: это делается через имитацию запросов напрямую к сервисам статистики: яндекс метрика, гугл аналитикс, лайвинтернет идругие. Т.е. на сам сайт бот не заходит, т.к. это ему не нужно и будет только тормозить его работу из-за низкой скорости ответа многих сайтов. Сервера сервисов статистики напротив отвечают гораздо быстрее, что позволяет делать тысячи запросов в секунду.
Вывод: бороться с этим могут только сами сервисы, например, исключением из базы всех доменов, которые сами из себя ничего не представляют, но очень часто фигурируют в источниках переходов ваших сайтов.
Что делать: пишите в тех. поддержку тикеты с просьбой проверить и исключить из общей базы (не только для вашего сайта) все озвученные здесь домены. После 100 однотипных запросов дело сдвинется ;)
забанить по рефереру через .htaccess
как вариант: Bing
Вышла версия: TOBBOT 0.3.1
Модули:
Новый модуль Add URL Bing. Другие модули также были доработаны: увеличена их скорость и надежность.
API функции:
Новая функция SAVE позволяет выполнить промежуточное сохранение данных, что в случае неудачного выполнения большого задания позволяет продолжить с указанного места. Например, если в задании парсятся все 10 страниц выдачи Google и на 4 странице происходит сбой выполнения, то при помощи функции SAVE можно начать парсинг в следующем цикле сразу с 4 страницы. Новая функция REDIRECT включает/выключает автоматический переход в случае редиректа. Возможные значения: REDIRECT+ (по умолчанию) и REDIRECT-. Например, если при запросе страницы сервер делает предварительную цепочку редиректов, то теперь программа пройдет по всем редиректам самостоятельно. Бывает, что нужно обработать цепочку редиректов самому, тогда можно временно выключить REDIRECT-, а потом снова включить REDIRECT+ автоматический переход в случае редиректа. Новая функция REFERER включает/выключает автоматическую смену реферера. Возможные значения: REFERER+ (по умолчанию) и REFERER-. Например, если нужно открыть новую страницу, но после запроса сохранить реферер предыдущей страницы, то нужно сначала выключить REFERER-, а после запроса снова включить REFERER+ автоматическую смену реферера.
Например, если в задании парсятся все 10 страниц выдачи Google и на 4 странице происходит сбой выполнения, то при помощи функции SAVE можно начать парсинг в следующем цикле сразу с 4 страницы.
Например, если при запросе страницы сервер делает предварительную цепочку редиректов, то теперь программа пройдет по всем редиректам самостоятельно. Бывает, что нужно обработать цепочку редиректов самому, тогда можно временно выключить REDIRECT-, а потом снова включить REDIRECT+ автоматический переход в случае редиректа.
Например, если нужно открыть новую страницу, но после запроса сохранить реферер предыдущей страницы, то нужно сначала выключить REFERER-, а после запроса снова включить REFERER+ автоматическую смену реферера.
TOBBOT 0.2.0 ☝
p.s. завтра начну писать Help 🍿
7 лет молчали, но не удержались 🍿
Есть ли у вас список страниц с которого были ссылки?
Вы скачивали последнюю версию 0.1.0? В предыдущих был баг в некоторыз модулях, который уже устранен.
Если не сложно, то пришлите мне логи или файл задания или малую часть его, чтобы я сам попробовал.
Попробую внести ясность...
TOBBOT - это попытка сделать простой инструмент вебмастера для выполнения различных сетевых задач.
Программа имеет базовый набор модулей, которыми можно пользоваться сразу же:
В идеале базовый набор модулей должен содержать все популярные задачи.
Также программа имеет открытый API, с помощью которого можно создавать собственные модули, либо заказывать их разработку на стороне.
В API включены основные функции:
Все это выполняется многопоточно, с/без прокси, с передачей реферера, обработкой кук.
Результат хранится в таблице (CSV файл, который можно потом смотреть в Excel).
Например, у вас появилась задача.
Проверить доступность для регистрации 1 000 000 имен доменов из базы Alexa.
Можно заказать у программиста с нуля и заплатить много денег, а можно сделать на TOBBOT за 5 минут:
URL_POST адрес регистратора доменов параметры, передаваемые при запросе SCRIPT если на странице написано, что домен досутпен, то GOOD если не доступно, то BAD
п.с. другим отвечу позже, пора бежать...
Gnev88, спасибо за критику. Я все вижу/слышу и думаю как исправить.
JAVA очень популярный язык, просто в среде вебмастеров не так распространен и, видимо, поэтому вызывает трудности.
А TOBBOT - молодой, бесплатный проект. Дайте время - будет и русский, и нормальный хелп.