Блокировка парсеров ссылок...

123 4
Appassionato
На сайте с 22.06.2010
Offline
286
2671

Собственно вопрос - может быть кто-нибудь уже решал задачу блокировки парсящих ботов на своих сайтах? Дабы оградить плоды своей работы от лишних глаз.

В частности, речь идет о Solomono, пауке RDS и подобных сервисах.

Хостинг Работает, как Часы ( http://tinyurl.com/nze85xw ). Проверено за 11+ лет.
[umka]
На сайте с 25.05.2008
Offline
456
#1

От всех не оградишься, всех не забанишь.

Хотите скрыть свои труды от лишних глаз — храните рукописи дома в сейфе :)

Лог в помощь!
Appassionato
На сайте с 22.06.2010
Offline
286
#2

Да понятно, что от всех не оградишься.... - Кто сильно захочет, тот и вручную найдет.

Хотелось бы хотя бы защититься от самых очевидных.

[Удален]
#3

Appassionato, эти приличные, но если сайт есть в топе по интересному запросу - у вас даже разрешение не спросят и не представятся или представятся яндексом :)

T
На сайте с 27.06.2006
Offline
179
#4

Appassionato, не совсем понятно, как теоретически можно оградиться от парсера ссылок.

Я так понимаю вопрос о скрытии ссылок на ваш проект.

Но они же располагаются на сотнях и тысячах чужих сайтах. Т.е. даже если соломоно и т.п. слушаются роботс, то они не проиндексируют только ваш сайт с вашими исходящими ссылками, а входящие с чужих сайтов всё равно будут в индексе.

Appassionato
На сайте с 22.06.2010
Offline
286
#5

1. сателлиты

2. зеркала (да, тот самый дедовский способ, который отлично маскировал YSE)

3. данные внутреннего анализа

4. сайты партнеров

ну и т.д.

---------- Добавлено в 22:50 ---------- Предыдущее сообщение было в 22:48 ----------

burunduk:
Appassionato, эти приличные, но если сайт есть в топе по интересному запросу - у вас даже разрешение не спросят и не представятся или представятся яндексом :)

Теоретически можно парсить подсети обращающихся ботов. И все, что лишнее (аффилировано с парсерами) - в бан htaccess или iptables.

юни
На сайте с 01.11.2005
Offline
901
#6
Appassionato:
все, что лишнее

А как определить лишнее?

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Appassionato
На сайте с 22.06.2010
Offline
286
#7

Выскажу пару предположений:

Допустим, основные подсети RDS и соломоно можно сразу в бан-лист.

Из "правильных ботов" у нас кто? - Гугл, Яндекс, контакт, ФБ, вебархив ну и еще несколько штук наберется. Их сразу в вайт-лист. Остальных при подозрении на ботоводство проверяем через RIPE на предмет владельцев подсети (если есть корреляция с подсетями вышеозначенных пауков, то в бан). Ну и т.д.

Как по мне, проблема ведь не нова.... С тем же ддосом научились бороться. С вредными пауками по идее тоже можно попробовать.

юни
На сайте с 01.11.2005
Offline
901
#8
Appassionato:
основные подсети RDS и соломоно

Их ведь ещё нужно найти (или найти новые, которые раньше в парсинге не фигурировали).

Appassionato:
проверяем через RIPE на предмет владельцев

Здесь есть немало не очевидных моментов.

Никто не запрещает представляться обычным браузером, опять же.

Appassionato
На сайте с 22.06.2010
Offline
286
#9
юни:
Никто не запрещает представляться обычным браузером, опять же.

User-agent - это одно, а IP-подсеть - это другое. Подсеть просто так не подделаешь. Хотя с другой стороны несколько кило прокси могут этот момент и решить.

В любом случае, RDS и соломоно - это масс-март. И, ИМХО, никто не будет ради пары процентов параноидальных веб-мастеров извращаться с IP-подсетями и проксями.

[Удален]
#10
Appassionato:
1. сателлиты
2. зеркала (да, тот самый дедовский способ, который отлично маскировал YSE)
3. данные внутреннего анализа
4. сайты партнеров

вы думаете вы один такой умный :)

приведу простой пример если сайт в топе и невидно ссылок это повод его проверить пристальнее и сеточки вычисляются на раз

если разговор о донорах то отсутствие информации просто повод добавить сайт в гбл :)

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий