Guru911

Рейтинг
48
Регистрация
06.10.2007
Andron_buton:
Вот что по этому поводу думает гугл:
http://www.google.com/support/webmasters/bin/answer.py?answer=80553
Компания Google не публикует "белые списки" IP-адресов для веб-мастеров. Это связано с тем, что эти диапазоны IP-адресов могут измениться, что создаст проблемы для веб-мастеров, которые установили к ним жесткую привязку. Наилучший способ идентифицировать доступ робота Googlebot - с помощью агента user-agent (Googlebot).

да я примерно тоже самое нарыл, вопрос, а как по user-agent на уровне файрвола их разрешить ?

(апач не используем, да и не эффективно на уровне апача это делать)

И вопрос на засыпку, а разве спам боты не могут маскироваться по user-agent ? мне кажется по айпи немного надежнее, но гемор с обновлениями

Guru911 добавил 20.06.2011 в 23:45

zexis:
Я вот такой список сетей поисковых ботов использую.
Собирал его год назад на основе поиска по интренету и просмотра своих логов.

77.88.0.0/18 yandex
87.250.224.0/19
93.158.128.0/18
95.108.128.0/17
213.180.192.0/19
64.68.80.0/21 google
64.233.160.0/19
66.102.0.0/20
66.249.64.0/19
72.14.192.0/18
209.85.128.0/17
216.239.32.0/19
67.195.0.0/16 Yahoo
69.147.64.0/18
72.30.0.0/16
74.6.0.0/16
81.19.64.0/19 rambler
94.100.176.0/20 mail.ru
94.100.181.128/25
195.239.211.0/24
217.69.134.54/24
217.69.136.0/23
65.52.0.0/14 Microsoft Bing.com
207.46.0.0/16
194.67.18.0/24 aport
66.231.188.0/24 Gigabot или Gigablast
88.212.202.0/26 Liveinternet
77.91.224.0/21 Webalta
208.115.111.248 dotnetdotcom.org
208.115.111.245 dotnetdotcom.org
88.131.106.0/26 entireweb.com
213.67.191.33 www.majestic12.co.uk/bot.php?+
85.17.211.164 puritysearch.net
188.40.108.196 sape.ru
80.70.236.75
85.175.212.141
217.107.36.73
217.107.36.132
81.177.144.46
87.242.74.101
80.251.136.38
93.191.15.77
93.191.15.81
188.72.80.0/24

выглядит скудненько, потому как их только для яши диапозонов около 300 http://www.db.ripe.net/whois?form_type=advanced&full_query_string=&searchtext=YANDEX-MNT&do_search=Search&inverse_attributes=mnt-by&ip_search_lvl=Default%2528nearest+match%2529&alt_database=ALL&object_type=inetnum

может основные конечно, но как бы тут чего не пропустить, а то уже начитался историй, о том что одного новостного бота не пустили, и основной перестал ходить ...

Да и вопрос как это дело обновлять ? ...

Кстати про боты sape тоже интересно - он у них один ?

Guru911 добавил 20.06.2011 в 23:47

ENELIS:
Стрим-защита или список с IP (не подсети)?

это вы о чем ? и к кому ?

ENELIS:
Вы немного не так поняли, он у нас вайтлист и пускает всех ботов поисковиков без ограничений.
Касательно трех соединений - это ужасная практика, от реального ддоса не спасет, а проблемы всем браузерам дадут еще те.

три это я условно, может больше 5 не суть важно ...

Но если вы говорите что это плохая практика, то какой смысл в вашем вайт листе ? как вы от плохих ботов то защищаетесь ?

ENELIS:
Наш Анти-ддос накопил, фальш-позитивов нет, еще ни один поисковик не пострадал и клиенты делают отличное SEO. Для блеклиста возможно есть фальш-позитивы, но не для вайтлиста.
Можем трансляцию для IP дать в качестве таблицы.

некий блек лист неких ботов, которые донимают ваш сервер - это не панацея

немного поясню некоторые хостинги, в частности АГАВА заявляют что общими правилами они отсекают скажем больше 3 соединений с одного айпи, а якобы все поисковики у них в вайт листе.

Проблема в том что если поставить сканер больше чем на три потока, на моей стороне действительно режутся соединения. В течении полугода проблемы с индексацией на большом сайте, через раз (примерно раз в две недели) вываливается из выдачи половина сайта.

Озоботились своим сервером, а по ходу никто и не знает что можно создать белый лист роботов ...

Мдя ...

DenisVS:
который кроме Яндекса и пары-тройки других никто не понимает.
MajesticSeo так вообще будет долбить до посинения, и даже персональные просьбы в их поддержку не помогут. Только в бан по IP, которых очень много.

ну собственно и я так думаю, что чем тысячами отлавливать, и банить, проще решить кто хороший и добавить в белый ...

все не нужны, и вот например что вот это за зверь MajesticSeo - я понятия не имею и на сайте он мне не нужен (кажется :) )

тема то злободневная http://mastertalk.ru/lofiversion/index.php/t87909.html

Уважаемые хостеры обратите внимание !

Guru911 добавил 20.06.2011 в 20:23

http://www.google.com/support/a/bin/answer.py?hl=ru&answer=60764

собственно смущает такое положение дел, как быть ? кто что использует ? Как ограничеть вредных ботов и при этом чтобы не было потом мучительно больно ?

такое впечатление что никто не в курсе что вообще есть поисковые боты :)

мы на форуме о поисковых системах, а никто не в курсе что это такое ?

ENELIS:
1397 ip есть список. Можем продать.

говорю же надежные источники нужны, а то вместе с поисковыми ботами можно еще и трипер зароботать ... Из разряда - могу посоветовать что использовать в качестве root пароля ;)

Вообще это что сверхсикретная информация ?

Andreyka:
Нормальная практика - отдать боту 503. Он зайдет позже.
Ненормальная - ограничивать его по IP.

Я разве говорил что ботов поисковых систем нужно ограничивать ? нет я как раз о том чтобы их в белый лист добавить !

кстати это ваше попозже может месяцами длится ...

лучше уж Crawl-delay использовать http://help.yandex.ru/webmaster/?id=996567

iHead:

Осталось найти сети поисковиков :)

ну собственно это и есть основной вопрос :)

Интересует есть ли разница в материнских платах и соответственно в сетевых картах на EQ 4 » и EQ 6 » ? кто использует, поделитесь информацией плиз.

ENELIS:
Смешно, человек не понимают разницу между фронтендом и бекендом.

да понимаю понимаю, и админы приведенных мной проектов тоже очевидно понимают и поумнее меня будут, но вот настроить на бесперебойную работу не могут, один я тут дурак, а ошибки у всех одни и теже очевидно :)

Всего: 136