TopperHarley

TopperHarley
Рейтинг
350
Регистрация
24.03.2009

Думаешь лучше всем юзерам и первому индексирующему боту показывать какая у тебя красивая кнопка слива на весь экран? Можно в индекс вообще ни разу не попасть )

---------- Добавлено 07.05.2015 в 18:18 ----------

hakuna matata:
А ну понятно, я тогда вобще тут лишний.

Не, ты погоди. Давай уже развеем мифы. Эту ситуацию нужно проработать глубже.

hakuna matata:
Не. Потому что если гугл спалит что ты разным юзерам отдаешь разный контент, то будет хуже.

На всех нормальных сайтах куча контента меняется каждый день в страницах. Любой DLE или WP взять - у него посты скролятся на главной, облака тегов меняются.

Это ж не значит что чекающий бот им всем поставит галочку "ага, тут клоака"

Слив даже при наличии клоаки не обязан быть агрессивным.

В общем мнения разделились.

Скажу свое мнение. Я не верю в клоакинг по useragentу.

Да, честные боты можно фильтрануть по useragent.

Но не честные(шифрующиеся) боты будут пойманы по переходам на скучный анкор.

И вот тут клиент-серверная связка клоакинга позволит раздать адрес этого нечестного бота на всю свою сеть.

Единственное что тут является проблемой - гуглхром, который спалит слив юзера.

Но в случае с обычными безклоачными дорами этот факт слива фиксируется постоянно, так что от скрипта клоакинга точно хуже не будет.

Не?

Force68:
если некий посетитель не попадает по мои критерии, я не отдаю слив, пусть тусуется на доре - а бот это или папа римский мне пофиг.

дадада, я выше про это писал. бот не банится а просто ему не показываем слив

hakuna matata:
Топперу надо что-то продавать

прям мания какая-то

hakuna matata:
Да вобще то как раз в перманентный бан его и надо отправлять.

Помоему да, в бан навеки.

Dos3:
Топ даёшь проксификацию ?

даю стране угля. мелкого, но много. будет. в LinkAParser'e уже есть и в pb прикрутим.

Dos3:
имхо не надо подсетки заносить в блек лист

Спокуха, этого мы делать не будем. Идея была в том чтобы диапазоны добавлять только в сервер по паблик спискам ботов .

Допустим в сервер внесен диапазон, а клиенты подтянули себе эти обновления автоматически. Генерить диапазоны из единичных адресов не нужно.

---------- Добавлено 07.05.2015 в 16:26 ----------

_Snake_:
А если бы боты пришли с:
97.0.50.2
97.0.50.3
97.0.50.4
97.0.50.5
97.0.50.6
....
97.0.50.50

Мне кажется это нереально. В диапазоне будет дофига дырок.

Идея была в том что если на сервер конкретный ip попал в диапазон то забирать себе весь диапазон.

А не в том чтобы генерить диапазоны на лету.

Dos3:
т.е если мой бот пробежится по выдаче, то весь траф с моей подсетки забаните ? так весь тырнет перебанить не долго общими усилиями

твой бот просто слива не увидит - ну и нафиг он ему нужен?

Боты не банятся, а вносятся в блэклист же. И просто потом если бот в блэклисте, то ему не показывается кусок шаблона. Или наоборот еу показывается ченить дполнительное.

В общем слово google в реверсном днсе - это не повод для блэклиста. А вот googlebot - да.

---------- Добавлено 07.05.2015 в 13:14 ----------

_Snake_:
Т.ч сервер должен уметь составлять диапазоны. И если ip который прислал клиентский скрипт входит в диапазон. В ответ ему присылать не один IP, а весь диапазон, чтобы уменьшить объём кол-во обращений от клиентского скрипта.

Логично, записал

_Snake_:
Хотя... По поводу DNS, я сейчас подумал... У гугла же есть прокси для пользователей "турбо режима". Надо собирать статистику и смотреть.

Посмотрел, вот че дает турбо режим: google-proxy-66-249-81-129.google.com

_Snake_:
User-Agent это переменная, в которой содержится объём сферического коня в вакууме. Я находил, где UG ни чем не отличаются от обычных пользователей, а DNS гугла.

Скриптам дора обратный резолвинг делать будет тяжко, но можно разнести логику.

То есть брать логи апача, выгружать в утилитку, а она возьмет ipы без дублей и сделает многопоточный обратный резолвинг.

Всех вычисленных ботов оптравляем на сервер в server.php

---------- Добавлено 07.05.2015 в 13:00 ----------

А вот яндекс бот заполняет язык:

[HTTP_ACCEPT_LANGUAGE] => ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

[HTTP_FROM] => support@search.yandex.ru

[HTTP_USER_AGENT] => Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Немного сложнее

Всего: 2916