- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Собственно вопрос - может быть кто-нибудь уже решал задачу блокировки парсящих ботов на своих сайтах? Дабы оградить плоды своей работы от лишних глаз.
В частности, речь идет о Solomono, пауке RDS и подобных сервисах.
От всех не оградишься, всех не забанишь.
Хотите скрыть свои труды от лишних глаз — храните рукописи дома в сейфе :)
Да понятно, что от всех не оградишься.... - Кто сильно захочет, тот и вручную найдет.
Хотелось бы хотя бы защититься от самых очевидных.
Appassionato, эти приличные, но если сайт есть в топе по интересному запросу - у вас даже разрешение не спросят и не представятся или представятся яндексом :)
Appassionato, не совсем понятно, как теоретически можно оградиться от парсера ссылок.
Я так понимаю вопрос о скрытии ссылок на ваш проект.
Но они же располагаются на сотнях и тысячах чужих сайтах. Т.е. даже если соломоно и т.п. слушаются роботс, то они не проиндексируют только ваш сайт с вашими исходящими ссылками, а входящие с чужих сайтов всё равно будут в индексе.
1. сателлиты
2. зеркала (да, тот самый дедовский способ, который отлично маскировал YSE)
3. данные внутреннего анализа
4. сайты партнеров
ну и т.д.
---------- Добавлено в 22:50 ---------- Предыдущее сообщение было в 22:48 ----------
Appassionato, эти приличные, но если сайт есть в топе по интересному запросу - у вас даже разрешение не спросят и не представятся или представятся яндексом :)
Теоретически можно парсить подсети обращающихся ботов. И все, что лишнее (аффилировано с парсерами) - в бан htaccess или iptables.
все, что лишнее
А как определить лишнее?
Выскажу пару предположений:
Допустим, основные подсети RDS и соломоно можно сразу в бан-лист.
Из "правильных ботов" у нас кто? - Гугл, Яндекс, контакт, ФБ, вебархив ну и еще несколько штук наберется. Их сразу в вайт-лист. Остальных при подозрении на ботоводство проверяем через RIPE на предмет владельцев подсети (если есть корреляция с подсетями вышеозначенных пауков, то в бан). Ну и т.д.
Как по мне, проблема ведь не нова.... С тем же ддосом научились бороться. С вредными пауками по идее тоже можно попробовать.
основные подсети RDS и соломоно
Их ведь ещё нужно найти (или найти новые, которые раньше в парсинге не фигурировали).
проверяем через RIPE на предмет владельцев
Здесь есть немало не очевидных моментов.
Никто не запрещает представляться обычным браузером, опять же.
Никто не запрещает представляться обычным браузером, опять же.
User-agent - это одно, а IP-подсеть - это другое. Подсеть просто так не подделаешь. Хотя с другой стороны несколько кило прокси могут этот момент и решить.
В любом случае, RDS и соломоно - это масс-март. И, ИМХО, никто не будет ради пары процентов параноидальных веб-мастеров извращаться с IP-подсетями и проксями.
1. сателлиты
2. зеркала (да, тот самый дедовский способ, который отлично маскировал YSE)
3. данные внутреннего анализа
4. сайты партнеров
вы думаете вы один такой умный :)
приведу простой пример если сайт в топе и невидно ссылок это повод его проверить пристальнее и сеточки вычисляются на раз
если разговор о донорах то отсутствие информации просто повод добавить сайт в гбл :)