боты поисковых систем

ENELIS
На сайте с 29.08.2008
Offline
194
#41
юни:
Не думаю, что ПС отдают свои диапазоны сторонним компаниям.

Телекомы не гнушаются этим.

По-крайней мере IP от сети датацентра телекома у нас подписаны как customers cable/tv, хотя стоят в датацентре, а рутятся из соседнего дц.

С IP тяжело очень у LIRов нынче.

С Уважением, ServerAstra.ru (https://serverastra.com) - VPS и выделенные сервера в Будапеште по выгодным ценам!
юни
На сайте с 01.11.2005
Offline
902
#42
ENELIS:
Телекомы не гнушаются этим.

Они этим и живут, в том числе. Но тема-то не про них.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
G9
На сайте с 06.10.2007
Offline
48
#43

кто в лес, кто подрова ...

Давайте сосредоточимся, как лучше решать проблему?

Возможно ли вообще собрать такой список айпи главных российских поисковиков, остальные лично меня пока не интересуют.

Если нет, то как выйти из ситуации? избыточным железом и "анлим" (кстати где вы настоящий анлим то вообще видели :) ) не вариант.

главный вопрос как при отсеве, не побанить то что ценно ...

юни
На сайте с 01.11.2005
Offline
902
#44

Guru911, изучение синтаксиса рировских ДБ, в обсуждаемом случае, ещё важнее для хостера, чем знание языка запросов ПС - для оптимизатора.

Читайте мануалы, там всё есть. В случае с райпом справка лежит здесь, нужный Вам документ - вот этот, пожалуй. Пару часов прилежного изучения, десять минут на составление трёх-пяти грамотных запросов - и исчерпывающий список сетей любого лира будет у Вас перед глазами.

Вы только не забывайте про две обозначенные в этой теме проблемы:

1. Клоакинг, который проверяется с подсетей, принадлежность которых ПС вряд ли можно установить поиском по БД регистраторов.

2. Ручная проверка, которая вообще может идти (и наверняка идёт) обычным браузером через обычных провайдеров.

В обеих ситуациях (если их не учитывать) любой клиент захочет оторвать хостеру все выпирающие части тела, случись с сайтом какая-то связанная с этим проблема.

G9
На сайте с 06.10.2007
Offline
48
#45
юни:
Guru911,

Вы только не забывайте про две обозначенные в этой теме проблемы:

1. Клоакинг, который проверяется с подсетей, принадлежность которых ПС вряд ли можно установить поиском по БД регистраторов.

2. Ручная проверка, которая вообще может идти (и наверняка идёт) обычным браузером через обычных провайдеров.

В обеих ситуациях (если их не учитывать) любой клиент захочет оторвать хостеру все выпирающие части тела, случись с сайтом какая-то связанная с этим проблема.

я не хостер, исключительно для своих проектов, в таком случае как вы выходите из ситуации ? какая схема посылать плохих и оставлять хороших, с учетом этих двух факторов ?

Кстати чето я не въехал про ручную проверку ? поясните ... Речь о ботах которые больше определенного колличества соединений делают ....

PS: за ссылки спасибо, но было бы проще на кошках, не так ведь много нужно, а вам видимо не сложно :)

Отдельно для тех кто в танке (503 привет) - как минимум 4 категории вредоносных ботов 1) копируют весь ваш сайт и используют в качестве контента ... 2) всякие сео системы и неизвестно кто которые шарятся по вашему сайту и только мешаются, будут они попоздже мучить ваш сервер или в часы пик не имеет значения. 3) вася хакер - от делать нехрен запустил программу сканирования чего нибудь ... 4) реальный ддос ... - все это будет напрягать систему, если не в часы пик, то в иное время, будет жрать трафик, греть железо ( у желаза тоже есть ресурс) ... ах да забыл 5) спам боты - срут где попало в частности в комментах (только про капчи не надо рассказывать щелкается на раз два три...)

юни
На сайте с 01.11.2005
Offline
902
#46
Guru911:
в таком случае как вы выходите из ситуации ?

Доверяю хостеру. ;)

Guru911:
было бы проще на кошках, не так ведь много нужно

"Если бы" и "увы".

Первым делом - как и в случае с сео, синтаксис поиска хоть и не так прост, но доступен полностью и каждому, хотя многим проще не самостоятельно изучать, а воспользоваться чиьми-то готовыми решениями. Так и здесь - у меня нет желания лишать народ, уже собравший необходимые базы, куска вполне заслуженно заработанного хлеба, раз кто-то не хочет заниматься самоликбезом.

А во-вторых - хоть и наивно полагать, что читающий эту тему сотрудник ПС (уровня где-то старшего инженера и/или работник нока) откроет для себя что-то новое, но - определение владельцев ip есть палка о двух концах, и скрыть от ПС свои диапазоны сеошникам не менее важно, чем ПС скрыть от вебмастеров детали определения того же клоакинга.

Проблема усугубляется тем, что в процессе "тренировки на кошках" открывается немало не очевидных на первый взгляд деталей, раскрывать которые нет никакого желания. Поэтому определённая скрытность здесь вполне оправдана.

Andreyka
На сайте с 19.02.2005
Offline
822
#47
Guru911:

Отдельно для тех кто в танке (503 привет) - как минимум 4 категории вредоносных ботов 1) копируют весь ваш сайт и используют в качестве контента ... 2) всякие сео системы и неизвестно кто которые шарятся по вашему сайту и только мешаются, будут они попоздже мучить ваш сервер или в часы пик не имеет значения. 3) вася хакер - от делать нехрен запустил программу сканирования чего нибудь ... 4) реальный ддос ... - все это будет напрягать систему, если не в часы пик, то в иное время, будет жрать трафик, греть железо ( у желаза тоже есть ресурс) ... ах да забыл 5) спам боты - срут где попало в частности в комментах (только про капчи не надо рассказывать щелкается на раз два три...)

1) Скопировать сайт можно с любого IP с помощью teleport pro. И чего ты будешь делать со списком своих IP? :)

2) Для белых сайтов полезен трафик с любого ПС. Говносайтам нужен только яндекс и сапа. Про сервер я уже писал - используй нормальное железо.

3) Это уже отрезается в реалтайме чем-то NDIS. Причем тут список IP?

4) От реального DDOS есть реальная защита. Твой дохлый сервер положат, убив дохлый канал. И никакая защита iptables не спасет от реального DDOS.

5) Знаешь что бывает, когда хостер в порыве благородной ярости начинает резать спам-почту? Не получив ценного письма, контора, пользующаяся этим хостингом, откручивает яйки горе-хостеру. Вот и подумай об этом.

Не стоит плодить сущности без необходимости
_
На сайте с 24.03.2008
Offline
381
#48
Andreyka:
1) Скопировать сайт можно с любого IP с помощью teleport pro. И чего ты будешь делать со списком своих IP? :)

Ой не с любого. Довольно остроумные защиты я лично наблюдал.

Andreyka:

2) Для белых сайтов полезен трафик с любого ПС. Говносайтам нужен только яндекс и сапа. Про сервер я уже писал - используй нормальное железо.

Непонятно... имею белых... и немало. "Любые ПС" всё равно почти или совсем траффика не дают.

Скорее даже "совсем". Не более 0.1% от общей массы вроде как, "подписанных посещений".

Зачем ради этого насиловать железо и каналы мне невдомёк.

G9
На сайте с 06.10.2007
Offline
48
#49
_SP_:

Непонятно... имею белых... и немало. "Любые ПС" всё равно почти или совсем траффика не дают.
Скорее даже "совсем". Не более 0.1% от общей массы вроде как, "подписанных посещений".
Зачем ради этого насиловать железо и каналы мне невдомёк.

поддержыиваю :)

Guru911 добавил 22.06.2011 в 11:38

люблю я нашу родину, каждый в ней готов попочь ближнему :) от того и жевем прекрасно и здорово :)

ладно будем самолекбезом заниматься

только вот у меня сложилось впечатление, что никто толком не разбирается в теме, и все полагаются на авось, авось если ничего настраивать не буду, авось да все будет хорошо ...

_
На сайте с 24.03.2008
Offline
381
#50

Я вообще не понимаю нафига вам эти списки...

Если кто-то не слушается crawl delay - в бан его и всё :).

Бот это или нет - не ваша проблема в общем-то.

Ну выпадете из индекса... да и бог бы с ним :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий