Наблюдения над механизмом борьбы с клоакингом

bbon
На сайте с 01.04.2006
Offline
127
765

Волею судьбы получил в распоряжение хорошо отфильтрованную микростатистику на одном своем проекте (нормальном, белом, хоть и не совсем обычном). Возможно кому-нибудь даст почву для размышлений. :smoke:

Итак, методика. Есть сайт, полностью запрещенный для индексирования всем поисковикам и отдающий javascript на сторонние ресурсы (партнеры делают у себя вставки вида <javascript src="...").

Вполне разумно, что у Яндекса при индексации партнерских сайтов появляется желание проверить - не злонамеренный ли код?

Результат анализа логов.

1) В настоящий момент проверяющий робот маскируется следующими user-agent-ами (на полноту списка не претендую):

Opera/9.00 (Windows NT 5.1; U; en)

Mozilla/4.0 (compatible; MSIE 5.01; Windows 98)
Mozilla/4.0 (compatible; MSIE 4.01; Windows CE; PPC; 240x320)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; ru) Opera 8.52
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MRA 4.4 (build 01348))
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; MRA 4.4 (build 01348); .NET CLR 1.1.4322)"
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 4.3 (build 01218); .NET CLR 1.1.4322)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; FunWebProducts; .NET CLR 1.1.4322)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; InfoPath.1; .NET CLR 1.1.4322)"
Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.8.0.4) Gecko/20060508 Firefox/1.5.0.4

2) приходы замаскированного робота замечены из нижеперечисленных подсетей

95.108.128.0/17	Yandex enterprise network

93.80.0.0/16 RU-CORBINA MOSCOW BROADBAND BLOCK #3
95.24.0.0/13 RU-CORBINA BLOCK #10
91.76.0.0/14 ZAO MTU-Intel's Moscow Region Network

повторений ip "чужих" сетей не заметил, вполне возможно - динамические (не утверждаю - мало данных)

3) во всех зафиксированных случаях обнаруженны однообразно-дурацкие рефереры, которые имеют приблизительно такой вид

http://www.yandex.ru/yandsearch?text=%f1%e5%ea%f1+%ee%ed%eb%e0%e9%ed&stype=www

http://www.yandex.ru/yandsearch?text=%f1%ec%e5%f5+%ee%e1%ea%f3%f0%e5%ed%ed%ee%e9+%ea%ee%f0%ee%e2%fb+%f1%eb%f3%f8%e0%f2%fc&stype=www
http://www.yandex.ru/yandsearch?text=%ed%e0+%ea%ee%e3%ee+%e8%e7+%e7%ed%e0%ec%e5%ed%e8%f2%ee%f1%f2%e5%e9+%ff+%ef%ee%f5%ee%e6&stype=www

Обратите внимание, что urlencod-еная строка в нижнем регистре, что необычно для логов ;)

4) cookie для текущего ip-адреса запоминает, по крайней мере до 40 минут (куки выставлялись долгосрочные), НО! Для нового user-agenta и старого ip-адреса это есть неправильно :D: .

Очистку cookie по окончании сесси робот отрабатывает корректно. А точнее - следующий заход для робота - новая сессия, даже через минуту.

5) периодичность.

Проект выложен в сеть 6 декабря.

Первый единичный заход робота замечен 18 декабря, второй (тоже единичный) 24 декабря, а затем, с 6 января - ежедневно и по нескольку раз в день.

Мой скоропалительный вывод: механизм используется Яндексом для борьбы в том числе и с клоакингом (помимо поиска вредоносного кода).

nocomments
На сайте с 12.11.2009
Offline
176
#1

Может это не Яндекс? Реферера кто угодно может подделать.

Это счастливая рефка: {жать сюда} (http://bit.ly/WbMR4O) тому, кто по ней разместит больше всего статей, будет сопутствовать счастье всю его оставшуюся, длинную, обеспеченную жизнь.
bbon
На сайте с 01.04.2006
Offline
127
#2
nocomments:
Может это не Яндекс? Реферера кто угодно может подделать.

большинство запросов идут из корпоративной сети яндекса, я выше отметил это

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий