Каким софтом находить потенциально "опасный" контент?

KW
На сайте с 04.12.2013
Offline
172
1306

Есть ru-сайт куда материалы добавляются пользователями.

Несколько раз приходилось чистить довольно неприятный контент - какие-то военные приборы пытались рекламировать, один раз секс-товары.

Как можно автоматизировать поиск опасного контента?

Чтобы софт проверял наличие по новым страницам, или тупо обходил сайт по расписанию и выявлял те же порнокартинки, тексты о товарах для секса.

vkusnoserver
На сайте с 30.04.2011
Offline
104
#1

Автомодератор - мечта любого владельца форума :) Но на деле автоматически модерировать можно только спам, да и то с разным процентом успеха. Особенно во время развития таких продуктов как Хрумер. Если обложиться капчами, безусловно будет потеря и нормальных посетителей. Плагины цензуры (по словам и ссылкам) тоже дадут не полный эффект, как и блокировка по айпи. Например, если вас намеренно захотят подставить, то обойдут все эти ограничения. Поэтому без ручной модерации все равно не обойтись. Однако, некий комплекс мер принять можно.

Но чтобы советовать что-то конкретное, уточните что у вас за cms. Т.к. в любом случае это будет реализовываться на ее стороне.

Скидки на хостинг (/ru/forum/629944) | Конфигуратор (http://www.vkusnoserver.ru/link.php?id=31) | Администрирование (/ru/forum/871196) CEO собственной персоной - skype: vkusnoandy
KW
На сайте с 04.12.2013
Offline
172
#2

CMS самописная,

задача модерировать тексты еще более-менее ясна, по совпадениям слов и фраз,

а вот что с фото делать, грузят массой и неудобно проверять :(

Злобный Гыук
На сайте с 30.08.2007
Offline
83
#3
KraftWerk:
CMS самописная,
задача модерировать тексты еще более-менее ясна, по совпадениям слов и фраз,
а вот что с фото делать, грузят массой и неудобно проверять :(

Фото только глазками проверять. Тоже когда то была такая задача, сделали страницу в админке с микропревъюхами фоток, что бы за раз можно было сотню фоток просмотреть на откровенную порнуху, например, и пачкой удалить лишнее. За несколько минут, так можно отмодерить тысячу фоток.

SEO-api для программистов (/ru/forum/869285)
vkusnoserver
На сайте с 30.04.2011
Offline
104
#4

Может разрешить загрузку фото только с опр. фотохостингов? Возможно есть какие-то, где идет автомодерация порева. С другой стороны, если фото хостят боты, то можно решить блэклистом айпи-адресов и капчей.

А что за проект, если не секрет?

KW
На сайте с 04.12.2013
Offline
172
#5

vkusnoserver, секрет всегда.

Спасибо за советы.

Злобный Гыук:
Фото только глазками проверять

Ну вот сейчас так и приходится делать, да глазки не резиновые :)

Я вот нашел софт, но после первых же тестов посмотрел - он ни фига не выбирает

http://www.mediadetective.com/

Запустил с настройками по умолчанию, он навыбирал и нормальные и несколько эротических из тестовой папки. Странно, а сайт у них вроде убедительный.

KW
На сайте с 04.12.2013
Offline
172
#6

За пару дней перепробовал демо-версии нескольких программ из буржунета - ни одна (!) не выявляет точно эротические фото среди прочих.

Я не понимаю зачем они вообще тогда продают софт если он заведомо нерабочий.

Одним так и написал в суппорт.

Вопрос актуальный, надо из массы детектить порно, эро, полуобнаженные фото.

vkusnoserver
На сайте с 30.04.2011
Offline
104
#7

Наткнулся на след. обсуждение на stackoverflow.

Как я понял, основной метод распознавать - по тону кожи, т.е. на порно-картинках опр. области будет больше, нежели чем на обычных. Процент опознанной таким образом порнухи будет довольно большой (до 98%). Но, к сожалению, будет большим и процент ложных срабатываний на нормальных картинках (до 14%).

1. Вариант на питоне:

#!python    
import os, glob
from PIL import Image

def get_skin_ratio(im):
im = im.crop((int(im.size[0]*0.2), int(im.size[1]*0.2), im.size[0]-int(im.size[0]*0.2), im.size[1]-int(im.size[1]*0.2)))
skin = sum([count for count, rgb in im.getcolors(im.size[0]*im.size[1]) if rgb[0]>60 and rgb[1]<(rgb[0]*0.85) and rgb[2]<(rgb[0]*0.7) and rgb[1]>(rgb[0]*0.4) and rgb[2]>(rgb[0]*0.2)])
return float(skin)/float(im.size[0]*im.size[1])

for image_dir in ('porn','clean'):
for image_file in glob.glob(os.path.join(image_dir,"*.jpg")):
skin_percent = get_skin_ratio(Image.open(image_file)) * 100
if skin_percent>30:
print "PORN {0} has {1:.0f}% skin".format(image_file, skin_percent)
else:
print "CLEAN {0} has {1:.0f}% skin".format(image_file, skin_percent)

Сорс

2. nude.js на основе этого алгоритма.

3. Вариант внешней модерации, который я предлагал выше, через Amazon Mechanical Turk.

4. Еще алгоритмы на тему, если захотите вдруг кодить (все на английском): 1, 2.

BlueRay
На сайте с 09.03.2011
Offline
38
#8
KraftWerk:

Запустил с настройками по умолчанию, он навыбирал и нормальные и несколько эротических из тестовой папки. Странно, а сайт у них вроде убедительный.

Ещё не существует софта, который с 99%+ вероятностью отделит нежелательный контент от прочего. Данный софт может лишь помочь найти подозрительные картинки, но это не отменяет ручной проверки. Т.е. просто экономится время, т.к. надо проверять не тысячи фоток, а десяток-другой.

p.s. не использовал софт, ссылку на который вы кидали, и не могу оценить его качество.

Пишу десктопные и web приложения на C# (ASP.NET MVC) :-) Хотите сказать спасибо или обозвать дураком? Для этого есть репутация, не надо флудить.
LEOnidUKG
На сайте с 25.11.2006
Offline
1774
#9

Что значит не удобно проверять?

Сделайте админку удобную, чтобы быстро грузилась картинка, выделялись плохие слова и т.п.

Если что-то грузит плохое бан по IP на пару суток и т.п.

Это проблема будет временная, если поймут, что писать не имеет смысла то упадёт популярность говнопостинга.

Также создайте защиту на моменте регистрации. Я думаю пользователям же нужно региться? Пусть вводят капчту, потом вводят каптчу при каждом добавлении материала.

Возможно сделайте инвайтную систему допусков, тоже отличная идея.

Но всё зависит от баланса, не отпугнуть пользователей и постить нормальный контент.

✅ Мой Телеграм канал по SEO, оптимизации сайтов и серверов: https://t.me/leonidukgLIVE ✅ Качественное и рабочее размещение SEO статей СНГ и Бурж: https://getmanylinks.ru/ ✅ Настройка и оптимизация серверов https://getmanyspeed.ru/
KW
На сайте с 04.12.2013
Offline
172
#10
BlueRay:
Ещё не существует софта, который с 99%+ вероятностью отделит нежелательный контент от прочего

Ну это явно неправда, ведь в "безопасном поиске" по картинкам в Google как раз отсутствует порно, но присутствуют другие фото довольно точно совпадающие и по цвету кожи и проч.,

вопрос видимо в том секретная это технология или таки есть готовые решения.

vkusnoserver, смотрел темы, что-то там все недотягивает до результата. Тестировал готовые - практически все жуть.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий