Заходил на дор один интересный бот.

12
firacet
На сайте с 23.07.2008
Offline
68
1806

Посмотрел статистику одного свего дора и увидел интересного бота.

Пришел с реферером:http://82.179.62.128/index.php?p=mass_domain_send_tool

Я решил покопаться кто это, посмотрите кому пренадлежит IP:State Institute of Information Technologies and Telecommunications (SIIT&T "Informika")

если зайти по айпишнику то написано что это парсер. Еще немного покопался и получил его исходники:http://82.179.62.128/includes/.svn/text-base/

Посмотрите: http://82.179.62.128/includes/.svn/text-base/lib.inc.php.svn-base

Выходит это како-йто парсер который по определенным ключевым словам ( в коде можно найти упоминание "Эротика, порнография, извращения,Убийства, насилие, трупы,Обеспечение анонимности пользователя, обход контентных фильтров"

парсит поисковики и заносит найденные домены к себе в список.

Интересно что этот институт ИТ с этим списком делает? Есть идеи?

Кстати, код очень качественный, многое можно взять для себя ;)

Сбылись мечты народный: Мир-Труд-Май
taiga
На сайте с 05.04.2008
Offline
88
#1

Это Информика тестирует парсер, заказанный эфэсбэшниками :)

Свое издательство (http://isvoe.ru/knigi) Книжный магазин в Петербурге (http://svoi-knigi.ru)
Б
На сайте с 07.07.2007
Offline
46
#2

скорее составляют черный список сайтов, а потом хоть продавай его :). идиотская мысль, но другое в голову не приходит, сигнатуры все равно на порядок эффективнее.

B
На сайте с 31.05.2007
Offline
16
#3

а што тут думать, надо выкачать весь и запустить =)

firacet
На сайте с 23.07.2008
Offline
68
#4

весь не получться выкачать, у меня получилось добраться только к /include/ если вы сможете, то тогда конечно интересно было бы запустить.

A3
На сайте с 28.11.2007
Offline
5
#5

а вот немножко логов)

http://82.179.62.128/work_logs/

не логов даже а результатов работы

если просмотреть логи, то можно видеть что действительно собирают базу сайтов

я думаю, что далее будет анализ базы на выявление наиболее 'чёрных' ресурсов

...

еще в коде есть ссылка

http://skf.edu.ru/

если прочитать инфу на самом сайте то все станет понятно)

это реализация СКФ(системы контентной фильтрации) читаем тут http://skf.edu.ru/HowToRegister.aspx

response
На сайте с 01.12.2004
Offline
324
#6

хехе, из его логов можно почерпнуть список проксей 😂

Однопоточный парсер ключевых слов Магадан (http://magadanparser.ru) (со свистелками) Многопоточный парсер ключевых слов Солнечный (http://sunnyparser.ru) (без свистелок)
Progr@mmer\.
На сайте с 14.10.2007
Offline
44
#7

Прошу кого-нибудь, выкачайте это - я вроде бы знаю что это. Сам сейчас далеко от компа - не могу выкачать :(((

Вашей девушке не хватает романтики? Черпните её на сайте «Я Люблю Романтику» (http://iloveromantics.ru/). Романтический форум (http://forum.iloveromantics.ru/) для отдыха от нудной работы.
firacet
На сайте с 23.07.2008
Offline
68
#8
response:
хехе, из его логов можно почерпнуть список проксей 😂

Прокси можно не из лога взять. В коде написано что они их тут берут: http://www.checker.freeproxy.ru/checker/users/DenisShurduk.php?id=37DHSITEEXDCSRES43E5FVBUIU9MNYR6DGDFIFY8EYFHSFCOSKFFNGXD&lng=en&astext=1&noheaders=1&showproxytypes=anon

firacet добавил 19.08.2008 в 14:53

Progr@mmer\.:
Прошу кого-нибудь, выкачайте это - я вроде бы знаю что это. Сам сейчас далеко от компа - не могу выкачать :(((

Все уже скачано ;)

А какое твое мнение - что это. ?

LL
На сайте с 27.09.2007
Offline
39
#9

Интересная вещь, но они люди жесткие 100%


$cat_lib["3"] = "Эротика, порнография, извращения";
$cat_lib["8"] = "Убийства, насилие, трупы";
$cat_lib["29"] = "Обеспечение анонимности пользователя, обход контентных фильтров";
скорее составляют черный список сайтов, а потом хоть продавай его

врядли тут составляются списки тематических сайтов т.к. дергают только 50 первых сайтов из выдачи, скорее топы в разных тематиках исследуют или что-то типа того...

Кстати, есть возможность посмотреть это дело изнутри :)

Скорее всего, такая возможность только у ТС, если выкачал ты оттуда всё, прежде чем запостить сюда... Если что - можешь в личку стукнуть, расскажу

А код да, качественный

-EX-
На сайте с 07.07.2006
Offline
180
#10

А мо

la-la-la:
врядли тут составляются списки тематических сайтов т.к. дергают только 50 первых сайтов из выдачи, скорее топы в разных тематиках исследуют или что-то типа того...

А может быть это тестируется, разрабатывается или усовершенствуется какой-то анализатор АПдейтов? По конкретной тематике... Ведь у Ашманова вроде есть монитор такого контента в ПС...

С уважением, Андрей aka EX
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий