боты поисковых систем

1 2345 6
G9
На сайте с 06.10.2007
Offline
48
#21
Andron_buton:
Вот что по этому поводу думает гугл:
http://www.google.com/support/webmasters/bin/answer.py?answer=80553
Компания Google не публикует "белые списки" IP-адресов для веб-мастеров. Это связано с тем, что эти диапазоны IP-адресов могут измениться, что создаст проблемы для веб-мастеров, которые установили к ним жесткую привязку. Наилучший способ идентифицировать доступ робота Googlebot - с помощью агента user-agent (Googlebot).

да я примерно тоже самое нарыл, вопрос, а как по user-agent на уровне файрвола их разрешить ?

(апач не используем, да и не эффективно на уровне апача это делать)

И вопрос на засыпку, а разве спам боты не могут маскироваться по user-agent ? мне кажется по айпи немного надежнее, но гемор с обновлениями

Guru911 добавил 20.06.2011 в 23:45

zexis:
Я вот такой список сетей поисковых ботов использую.
Собирал его год назад на основе поиска по интренету и просмотра своих логов.

77.88.0.0/18 yandex
87.250.224.0/19
93.158.128.0/18
95.108.128.0/17
213.180.192.0/19
64.68.80.0/21 google
64.233.160.0/19
66.102.0.0/20
66.249.64.0/19
72.14.192.0/18
209.85.128.0/17
216.239.32.0/19
67.195.0.0/16 Yahoo
69.147.64.0/18
72.30.0.0/16
74.6.0.0/16
81.19.64.0/19 rambler
94.100.176.0/20 mail.ru
94.100.181.128/25
195.239.211.0/24
217.69.134.54/24
217.69.136.0/23
65.52.0.0/14 Microsoft Bing.com
207.46.0.0/16
194.67.18.0/24 aport
66.231.188.0/24 Gigabot или Gigablast
88.212.202.0/26 Liveinternet
77.91.224.0/21 Webalta
208.115.111.248 dotnetdotcom.org
208.115.111.245 dotnetdotcom.org
88.131.106.0/26 entireweb.com
213.67.191.33 www.majestic12.co.uk/bot.php?+
85.17.211.164 puritysearch.net
188.40.108.196 sape.ru
80.70.236.75
85.175.212.141
217.107.36.73
217.107.36.132
81.177.144.46
87.242.74.101
80.251.136.38
93.191.15.77
93.191.15.81
188.72.80.0/24

выглядит скудненько, потому как их только для яши диапозонов около 300 http://www.db.ripe.net/whois?form_type=advanced&full_query_string=&searchtext=YANDEX-MNT&do_search=Search&inverse_attributes=mnt-by&ip_search_lvl=Default%2528nearest+match%2529&alt_database=ALL&object_type=inetnum

может основные конечно, но как бы тут чего не пропустить, а то уже начитался историй, о том что одного новостного бота не пустили, и основной перестал ходить ...

Да и вопрос как это дело обновлять ? ...

Кстати про боты sape тоже интересно - он у них один ?

Guru911 добавил 20.06.2011 в 23:47

ENELIS:
Стрим-защита или список с IP (не подсети)?

это вы о чем ? и к кому ?

iHead
На сайте с 25.04.2008
Offline
137
#22

чтобы подстраховаться от "случайно забанил" - можно периодически делать обратный резолв новых адресов, попавших в черный список.

Рекомендуемый хостинг партнер 1С-Битрикс (https://www.ihead.ru/bitrix/), PHP-хостинг (https://www.ihead.ru/php/), доверенный партнер RU-CENTER (https://www.ihead.ru/news/573.html), официальный представитель REG.RU в Кирове (https://www.ihead.ru/news/851.html)
R
На сайте с 22.06.2007
Offline
174
#23
Guru911:
немного поясню некоторые хостинги, в частности АГАВА заявляют что общими правилами они отсекают скажем больше 3 соединений с одного айпи

Это бред. Если они это делают, то это плохо не только для ботов, а и для людей. Вы в курсе, что тот же ФФ может делать до 20 одновременных соединений для ускорения загрузки.

Andron_buton:
Компания Google не публикует "белые списки" IP-адресов для веб-мастеров. Это связано с тем, что эти диапазоны IP-адресов могут измениться, что создаст проблемы для веб-мастеров, которые установили к ним жесткую привязку. Наилучший способ идентифицировать доступ робота Googlebot - с помощью агента user-agent (Googlebot).

Полностью поддерживаю. Блокировка по IP - не выход, IP могут часто меняться, вы собираетесь регулярно отслеживать все изменения, чтобы размещенные на вашем сервере сайты не ушли из индекса?

Reise добавил 21.06.2011 в 02:51

Guru911:
апач не используем, да и не эффективно на уровне апача это делать

Вы в этом уверены?

Про апач мало что знаю, может его и можно положить, даже если он 503 отдает, у меня например на серверах nginx, дописываю в конфиге правило типа такого:

if ($http_user_agent ~ ZmEu) {
return 503;
}

Кстати можете взять этого юзер-агента на заметку для отсева :)

Reise добавил 21.06.2011 в 02:53

Guru911:
Да и вопрос как это дело обновлять ?

Да никак, изначально постановка вопроса неправильная. По IP не банят. Берите пример с поисковиков, они банят не IP, а сайты, так и вы должны делать, не IP запрещать, а плохих дядей :)

ENELIS
На сайте с 29.08.2008
Offline
194
#24

29871 IP вот сколько в такой табличке.

С Уважением, ServerAstra.ru (https://serverastra.com) - VPS и выделенные сервера в Будапеште по выгодным ценам!
Andreyka
На сайте с 19.02.2005
Offline
822
#25

Практика показывает, что 503 в случае перегрузки - это самая действенная мера. И не надо никаких блокировок через iptables.

Не стоит плодить сущности без необходимости
G9
На сайте с 06.10.2007
Offline
48
#26
Andreyka:
Практика показывает, что 503 в случае перегрузки - это самая действенная мера. И не надо никаких блокировок через iptables.

ну железо вы допустим не жалеете фиг с ним, за сохранность и оригинальность контента не переживаете и раздаете всем кому не поподя пачками, а точнее оптом, а за траф платить охота ? Паризитный траф от ботов может половину составлять ...

Guru911 добавил 21.06.2011 в 12:34

Reise:
Это бред. Если они это делают, то это плохо не только для ботов, а и для людей. Вы в курсе, что тот же ФФ может делать до 20 одновременных соединений для ускорения загрузки.

видимо файрфокс делает это как то иначе, (уверены что не одновременно для 20 разных страниц ?)

Авито например точно так же фильтрует, попробуйте сканер какой нить запустить, секунды через три ваш айпи в баню улетит на сутки ... при этом 1 миллион пользователей с разными браузерами чувствует себя превосходно ...

Reise:

Полностью поддерживаю. Блокировка по IP - не выход, IP могут часто меняться, вы собираетесь регулярно отслеживать все изменения, чтобы размещенные на вашем сервере сайты не ушли из индекса?

думаю основные все равно не меняются - был бот поисковым - врядле его переопределят разносить кофе ...

Reise:

Вы в этом уверены?

Про апач мало что знаю, может его и можно положить, даже если он 503 отдает, у меня например на серверах nginx, дописываю в конфиге правило типа такого:

ну в смысле не собираемся ставить апач, у меня и lighttpd отлично работает, точнее летает.

десятки тысячи айпи в фаерволе довольно сильно будут напрягать систему даже на уровне ядра, а если сотни правил в энджине ... то тоже скоро начнет тормозить ...

Нужен какой то красивый выход из ситуации :)

Reise добавил 21.06.2011 в 02:53

Reise:

Да никак, изначально постановка вопроса неправильная. По IP не банят. Берите пример с поисковиков, они банят не IP, а сайты, так и вы должны делать, не IP запрещать, а плохих дядей :)

чушь какая то, вы вправду думаете что они сайты правилами в энджин заносят или куда там ? поставить галочку в базе и не давать в выдачу это вообще из другой оперы ...

чаще проблема вообще не с хостами домена может и не быть, а с програмами ...

юни
На сайте с 01.11.2005
Online
902
#27
Guru911:
Яндекс вроде более менее понятно

У Яндекса больше мантейнеров.

iHead:
делать обратный резолвинг

Излишне, да и не всегда можно получить домен.

iHead:
список сетей можно получить по номерам AS

Один из оптимальных вариантов.

iHead:
вот еще

У Гугла есть диапазоны не только в арине.

Andron_buton:
Это связано с тем, что эти диапазоны IP-адресов могут измениться

Отмазка в духе Яндекса. Ничто не мешает опубликовать изменившийся список (тем более, что это процесс далеко не сиюминутный).

Guru911:
Кстати про боты sape тоже интересно - он у них один

Без разницы, адресов там значительно меньше.

ENELIS:
29871 IP вот сколько в такой табличке

"Блоков ip" наверное имеется в виду?

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
Andron_buton
На сайте с 19.07.2007
Offline
270
#28
юни:


Отмазка в духе Яндекса. Ничто не мешает опубликовать изменившийся список (тем более, что это процесс далеко не сиюминутный).

Кстати да, бэкрезолв тоже можно подделать как и юзерагент, вот думаю, может так и сделать и потом в саппорт написать.

G9
На сайте с 06.10.2007
Offline
48
#29
юни:
У Яндекса больше мантейнеров.

всмысле ? ментейнер это вообще к чему ?

а как вы собственно решаете эти проблемы ? откуда берете списки и так далее ?

ENELIS
На сайте с 29.08.2008
Offline
194
#30

Нет именно IP адресов, блоков там поменьше будет.

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий