Блокировка парсеров ссылок...

1 234
M
На сайте с 09.02.2008
Offline
68
mlu
#21

Зачем RIPE, whois и прочее, для большинства ботов от ПС проверка вполне может ограничиться вычислением хостнейма по айпишке.

Для пхп это функция gethostbyaddr(). У гугла хостнейм оканчивается на "googlebot.com", у яши - yandex.(ru|com), у яху - yahoo.net, у мылру - mail.ru, бинг - search.msn.com.

Найденные правильные айпишки настоящих можно сразу в локальный вайтлист заносить, чтобы второй раз не резолвить, аналогично с явно левыми ботами.

У меня такая система работает на некоторых сайтах и вполне успешно банит много левых ботов, которые прикидываются яшей и прочими гуглботами.

[umka]
На сайте с 25.05.2008
Offline
456
#22
mlu:
Для пхп это функция gethostbyaddr(). У гугла хостнейм оканчивается на "googlebot.com", у яши - yandex.(ru|com), у яху - yahoo.net, у мылру - mail.ru, бинг - search.msn.com.

Хост в обратной зоне можно прописать какой угодно.

Лог в помощь!
M
На сайте с 09.02.2008
Offline
68
mlu
#23
'[umka:
;9854977']Хост в обратной зоне можно прописать какой угодно.

Это заметно сложнее, нежели UA подменить в запросе. Более того, это не везде возможно в принципе. Например, когда качают через прокси или с хостингов, которые не позволяют птр вбить.

Этот способ вполне работает и его рекомендуют сами поисковики. Например, яндекс: http://help.yandex.ru/webmaster/?id=1076102

[Удален]
#24

mlu, проверяйте сколько вам угодно

http://webmaster.yandex.ru/spellcheck.xml?checkurl=www.allave.ru

:)

Appassionato
На сайте с 22.06.2010
Offline
328
#25
burunduk:
mlu, проверяйте сколько вам угодно

http://webmaster.yandex.ru/spellcheck.xml?checkurl=www.allave.ru

:)

РДС и соломоно из-за 2% параноиков так заморачиваться не станут :)

Хостинг Работает, как Часы ( http://tinyurl.com/nze85xw ). Проверено за 11+ лет.
[Удален]
#26

Appassionato, таких сервисов много :)

L
На сайте с 07.12.2007
Offline
351
#27
'[umka:
;9854977']Хост в обратной зоне можно прописать какой угодно.

Можно сделать второй запрос, разрезолвить обратную зону и проверить совпадение IP.

burunduk:
mlu, проверяйте сколько вам угодно

Яндекс сам вычислит и забанит IP за превышение количества обращений c него.

PS: Способы защиты - есть, достаточно простые и эффективные. Но выкладывать их в паблик - глупо, тк сразу придётся городить новые и сложные способы.

[Удален]
#28
Ladycharm:
Яндекс сам вычислит и забанит IP за превышение количества обращений c него.

вы это расскажите тем кто парсит яндекс в промышленных масштабах :)

[umka]
На сайте с 25.05.2008
Offline
456
#29
Ladycharm:
Можно сделать второй запрос, разрезолвить обратную зону и проверить совпадение IP.

Два резолва на 1 посетителя — довольно накладно.

Ну и плюс ко всему, у одного хоста может быть несколько айпишников.

юни
На сайте с 01.11.2005
Offline
933
#30
Ladycharm:
Можно сделать второй запрос, разрезолвить обратную зону и проверить совпадение IP.

Поэтому парсеры не заморачиваются с хостами, оставляя только чистый ip.

Appassionato:
Подсеть просто так не подделаешь.

Ну, не просто так. К примеру, лир выделил клиенту отдельный блок, а у клиента фирма называется "Йандекс LLC", с офисом якобы на Льва Толстого (или где там). Соответственно, хуизы для выделенного блока оформляются, как идентичные яндексовским (в полном соответствии с регламентом и со всеми вытекающими).

Что будем делать? Технические поля тоже можно оформить соответствующе, не сомневайтесь (это я ещё не самую серую схему предложил, не говоря о совсем чорных-пречорных).

Tamerlan:
блокирование диапазона провайдера

Этак можно всю Корбину какую-нить заблочить. Не лучший вариант.

burunduk:
вы это расскажите тем кто парсит яндекс в промышленных масштабах

:)

https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий