Блокировка поисковика по IP, без robots.txt

L9
На сайте с 28.12.2009
Offline
53
2376

Кто нибудь задавался целью, блокировать поисковик гугл или яндекс по их IP ?

Может ли поисковик зайти на сайт маскируя свой Http_User_Agent ?

"Mediapartners-Google"

"Mozilla/5.0 (en-us) AppleWebKit/525.13 (KHTML, like Gecko; Google Wireless Transcoder) Version/3.1 Safari/525.13"

"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Я пытаюсь блокировать ух по классу Би, но вроде они всё равно пролазят (

Программирую на ASP.NET, MVC, C#, ANGULAR JS
Spaike
На сайте с 30.03.2009
Offline
152
#1

хитробот спокойно обойдет все твои баны

покупаю сайты
Revan
На сайте с 09.09.2005
Offline
321
#2

Отвечая на вопрос:

Официальные боты юзер агент не меняют.

Специальные боты ищущие клоакинг/редирект - не представляются, и ибороться с ними исключительно баном по айпи крайне не эфективно.

Просто сбор всех, даже официальные айпи Гугла - задача скорее не решаемая, чем решаемая. :)

С уважением, Прокофьев Александр, founder KudaGo.com (http://kudago.com). Отдаем информацию обо всех мероприятиях в РФ + Киев по API (/ru/forum/912869) всем желающим.
G
На сайте с 28.03.2009
Offline
21
#3
Revan:
Отвечая на вопрос:
Официальные боты юзер агент не меняют.
Специальные боты ищущие клоакинг/редирект - не представляются, и ибороться с ними исключительно баном по айпи крайне не эфективно.

Просто сбор всех, даже официальные айпи Гугла - задача скорее не решаемая, чем решаемая. :)

хитроботов как таковых не так уж и много. больше препятствий чинит автоматический стук тулбаров и браузеров. но и их можно легко фильтровать

Сундук со скриптами (http://seosunduk.biz/)
юни
На сайте с 01.11.2005
Offline
913
#4

Задавались уже похожим вопросом.

Простейший способ собрать большинство ip какой-либо компании, это поиск по netname, но в данном примере он осложняется тем, что, к примеру, ns7.yahoo.com (как и многие другие адреса этой компании) не имеет оформленного хуиза.

Кроме того, поисковику не составит труда выделить дочерний диапазон какой-либо из фирм (в т.ч. несуществующей, хотя это чревато), и тогда найти его настоящего владельца можно будет разве что по роутам и списку лиров. Также поисковик может вообще зарегистрировать несколько диапазонов под другим юр. лицом (и, соответственно, нетнэймом) специально для проверок клоакинга - в этом случае не спасёт вообще ничего, кроме инсайда.

Revan:
Просто сбор всех, даже официальные айпи Гугла - задача скорее не решаемая, чем решаемая.

Да уж, список явно неполный.

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
L9
На сайте с 28.12.2009
Offline
53
#5
Spaike:
хитробот спокойно обойдет все твои баны

хитробот - это кто ? Я виду статистику и отслеживаю по NS кто есть кто, этого не достаточно ?

Яша вроде кушает пока а вот гугл потихоньку продолжает выкидывать )

Revan:
Просто сбор всех, даже официальные айпи Гугла - задача скорее не решаемая, чем решаемая.

Так вот как раз по этому её и интересно решить. К тому же за это денюшку платят )

gogres,

gogres:
больше препятствий чинит автоматический стук тулбаров и браузеров. но и их можно легко фильтровать

Интересный подход, я об этом вообще не задумывался.

Поделитесь ,каким образом можно стук тулбаров и браузеров фильтровать ?

юни,

юни:
Кроме того, поисковику не составит труда выделить дочерний диапазон какой-либо из фирм

Но и в таком случае он будет ссылаться на тоже NS, нет ли ?

юни:
Также поисковик может вообще зарегистрировать несколько диапазонов под другим юр. лицом (и, соответственно, нетнэймом) специально для проверок клоакинга - в этом случае не спасёт вообще ничего, кроме инсайда.

М-да, такое можно статистикой только отследить. Надеюсь он этого не делает ))

Но возьму на учёт.

Можно вытащить запрос из базы данных кто был на сайте за последний месяц больше N раз и не входит в данные IP поисковиков, и клокнуть его за одно )

юни:
Простейший способ собрать большинство IP какой-либо компании, это поиск по netname,

Дополнил свою базу IP, спасиб.

Цель моя просто не делать полный клоакинг а примерно 10% от каждой страницы.

Я не замечал что бы гугл или яши были были ИП класса А. Поэтому фильтрую по классу Би.

Вот список по которым я фильтрую:

4.3.2.0 'google

8.6.48 'google

8.8.8.0 'google

64.233.x.x 'google

66.102.x.x 'google

66.249.x.x 'google

64.68.90.1 'google

72.14.x.x 'google

173.194.0.0 'google

74.125.0.0 'google

194.106.199.196 'google Mozilla/5.0 (en-us) AppleWebKit/525.13 (KHTML, like Gecko; Google Wireless Transcoder) Version/3.1 Safari/525.13 NEW !!!!!

209.85.0.0 'google

209.185.253 'google

216.33.229.163 'google

216.239.x.x 'google

67.195.0.0 'yahoo 67.195.0.0/16

77.88.x.x 'yandex

77.222.100.236 'yandex Yandex/1.01.001 (compatible; Win16; I) NEW !!!!!

83.69.198.98 'yandex Yandex/1.01.001 (compatible; Win16; I) ?

87.250.224.0 'yandex

93.158.x.0 'yandex

95.108.128.x 'yandex

213.180.192.0 'yandex

81.19.64.0 'rambler

81.222.64.10 'rambler StackRambler/2.0 (MSIE incompatible)

194.67.18.230 'aport.ru Mozilla/5.0 (compatible; AportWorm/3.2; +http://www.aport.ru/help)

Может у когото ещё есть такой наборчик ).

юни
На сайте с 01.11.2005
Offline
913
#6
levka9:
Но и в таком случае он будет ссылаться на тоже NS, нет ли ?

В смысле, ссылаться на NS, на нэйм-сервер? Вовсе необязательно.

Проблема в том, что лиру, при некоторых условиях, доступно изменение практических всех полей, отвечающих за формирование хуиза, поэтому отследить реального владельца по прямым данным не всегда возможно.

levka9:
Цель моя просто не делать полный клоакинг а примерно 10% от каждой страницы.

А смысл? Забанят ведь.

levka9:
Я не замечал что бы гугл или яши были были ИП класса А. Поэтому фильтрую по классу Би.

Нет ip-адресов класса "А", есть из разных классов "А". Таблица соответствия поможет в этом разобраться:

Таблица соответствия адресов: classfull/classless


+----------------------------------------------+
|addrs bits pref class mask |
+----------------------------------------------+
| 1 0 /32 255.255.255.255 |
| 2 1 /31 255.255.255.254 |
| 4 2 /30 255.255.255.252 |
| 8 3 /29 255.255.255.248 |
| 16 4 /28 255.255.255.240 |
| 32 5 /27 255.255.255.224 |
| 64 6 /26 255.255.255.192 |
| 128 7 /25 255.255.255.128 |
| 256 8 /24 1C 255.255.255 |
| 512 9 /23 2C 255.255.254 |
| 1K 10 /22 4C 255.255.252 |
| 2K 11 /21 8C 255.255.248 |
| 4K 12 /20 16C 255.255.240 |
| 8K 13 /19 32C 255.255.224 |
| 16K 14 /18 64C 255.255.192 |
| 32K 15 /17 128C 255.255.128 |
| 64K 16 /16 1B 255.255 |
| 128K 17 /15 2B 255.254 |
| 256K 18 /14 4B 255.252 |
| 512K 19 /13 8B 255.248 |
| 1M 20 /12 16B 255.240 |
| 2M 21 /11 32B 255.224 |
| 4M 22 /10 64B 255.192 |
| 8M 23 /9 128B 255.128 |
| 16M 24 /8 1A 255 |
| 32M 25 /7 2A 254 |
| 64M 26 /6 4A 252 |
| 128M 27 /5 8A 248 |
| 256M 28 /4 16A 240 |
| 512M 29 /3 32A 224 |
|1024M 30 /2 64A 192 |
+----------------------------------------------+

Кроме того, предоставление адресов компаниям не имеет каких-то видимых признаков упорядочивания, и может производится как из соседних классов "С", так и из остальных. Публичные ДНСы Гугла 8.8.8.8 и 8.8.4.4 яркий тому пример (кстати, у кого есть ссылка на историю получения этих ip - скиньте в топик: что-то навскидку даже не припомню регламента, согласно которому iana могла бы отдать кому-то адреса из подобного диапазона).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий