PandoraBox - вопросы и ответы + апдейты. Часть 2.

Force68
На сайте с 23.04.2010
Offline
250
#1251
_Snake_:
Некоторые роботы могут маскироваться под роботов Яндекса путем указания соответствующего user-agent. Вы можете проверить, что робот является тем, за кого себя выдает используя идентификацию, основанную на обратных DNS запросах (reverse DNS lookup).

а смысл этих сложностей? если в юзерагенте указано что это бот, да пофиг абсолютно настоящий он или прикалывается ----------> путь один, нахрен 😂

---------- Добавлено 07.05.2015 в 11:06 ----------

TopperHarley:
Еще заметил что у гуглбота не заполнен HTTP_ACCEPT_LANGUAGE, зато заполнен HTTP_FROM = googlebot(at)googlebot.com
А у меня по всем барузерам(IE,Chrome,Opera,Firefox) HTTP_ACCEPT_LANGUAGE заполнен, а HTTP_FROM - пуст
В общем все понятно, осталось взять и сделать ) Да и вообще давно пора

совнршенно правильно, и не только у гуглоботов,

и да интересна была бы такая фишка как фильтровать по HTTP_ACCEPT_LANGUAGE - к примеру мне надо показывать слив только тем юзерам, у кого мы определили язык как ru, остальных пускаем лесом.

ну такую фичу конешно надо делать отключаемой.

zTDS - бесплатная TDS (https://t.me/z_tds)
TopperHarley
На сайте с 24.03.2009
Offline
350
#1252

Серверную часть стоит сделать отключаемой? Чтобы client.php не ходил на server.php.

Или в этой теме смысла нет без централизованного сбора адресов?

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
Force68
На сайте с 23.04.2010
Offline
250
#1253
TopperHarley:
Серверную часть стоит сделать отключаемой? Чтобы client.php не ходил на server.php.
Или в этой теме смысла нет без централизованного сбора адресов?

на мой взгляд именно централизованный сбор и управление наиболее важная вещ,

очень было бы удобно.

_Snake_
На сайте с 06.12.2010
Offline
151
#1254
Force68:
а смысл этих сложностей? если в юзерагенте указано что это бот, да пофиг абсолютно настоящий он или прикалывается ----------> путь один, нахрен 😂

User-Agent это переменная, в которой содержится объём сферического коня в вакууме. Я находил, где UG ни чем не отличаются от обычных пользователей, а DNS гугла.

---------- Добавлено 07.05.2015 в 12:26 ----------

Force68:
а про остальное почитай для интересу http://javascript.ru/unsorted/id#javascript

Спасибо, в свободное время почитаю, вдруг, что-то новое под черпну.

---------- Добавлено 07.05.2015 в 12:29 ----------

Хотя... По поводу DNS, я сейчас подумал... У гугла же есть прокси для пользователей "турбо режима". Надо собирать статистику и смотреть.

TopperHarley
На сайте с 24.03.2009
Offline
350
#1255
_Snake_:
User-Agent это переменная, в которой содержится объём сферического коня в вакууме. Я находил, где UG ни чем не отличаются от обычных пользователей, а DNS гугла.

Скриптам дора обратный резолвинг делать будет тяжко, но можно разнести логику.

То есть брать логи апача, выгружать в утилитку, а она возьмет ipы без дублей и сделает многопоточный обратный резолвинг.

Всех вычисленных ботов оптравляем на сервер в server.php

---------- Добавлено 07.05.2015 в 13:00 ----------

А вот яндекс бот заполняет язык:

[HTTP_ACCEPT_LANGUAGE] => ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

[HTTP_FROM] => support@search.yandex.ru

[HTTP_USER_AGENT] => Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Немного сложнее

Force68
На сайте с 23.04.2010
Offline
250
#1256
TopperHarley:


[HTTP_ACCEPT_LANGUAGE] => ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01
[HTTP_FROM] => support@search.yandex.ru
[HTTP_USER_AGENT] => Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Немного сложнее

ну как то логичней наверно будет показывать фигу вместо слива даже если совпадает одно из условий, к примеру:

ип в блеклисте,

юзерагент в блеклисте,

ланг пустой или не тот что мы хотим.

TopperHarley
На сайте с 24.03.2009
Offline
350
#1257
_Snake_:
Хотя... По поводу DNS, я сейчас подумал... У гугла же есть прокси для пользователей "турбо режима". Надо собирать статистику и смотреть.

Посмотрел, вот че дает турбо режим: google-proxy-66-249-81-129.google.com

_Snake_
На сайте с 06.12.2010
Offline
151
#1258

По поводу ip - я вполне уверен, что ПС их как и провайдеры покупают диапазонами. Т.ч сервер должен уметь составлять диапазоны. И если ip который прислал клиентский скрипт входит в диапазон. В ответ ему присылать дополнительно весь диапазон, чтобы уменьшить кол-во обращений от клиентского скрипта.

TopperHarley
На сайте с 24.03.2009
Offline
350
#1259

В общем слово google в реверсном днсе - это не повод для блэклиста. А вот googlebot - да.

---------- Добавлено 07.05.2015 в 13:14 ----------

_Snake_:
Т.ч сервер должен уметь составлять диапазоны. И если ip который прислал клиентский скрипт входит в диапазон. В ответ ему присылать не один IP, а весь диапазон, чтобы уменьшить объём кол-во обращений от клиентского скрипта.

Логично, записал

Dos3
На сайте с 07.01.2011
Offline
363
#1260

т.е если мой бот пробежится по выдаче, то весь траф с моей подсетки забаните ? 😮 так весь тырнет перебанить не долго общими усилиями :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий