Где бы взять список всех бранных слов?

12
Katrin1988
На сайте с 14.03.2012
Offline
78
#11

Это будет бесконечный список, так как вместо букв "о" можно использовать нолики, разбавлять слова подчеркиваниями, заменами одной буквы на другую, сокращение типа "ска, пуй" и т.д. Правильно написали - слов не много, а вот число их вариантов близится к бесконечности :).. о великий и могучий русский матерный язык... можно культурными словами так послать, что матершинник от обиды заплачет

LinkBoss.net - Трастовые ссылки для увеличения трафика в 10 раз! (http://linkboss.net/)
Саша Фоменс
На сайте с 17.04.2013
Offline
110
#12

А что... нужно создать петицию серчан и отправить администрации searchengines.guru с целью открытия темы, где каждый сможет пополнить список бранных слов. Как вам идея? :)

Микрозайм онлайн - через 15 минут деньги на карте (http://freedengi.ru).
tommy-gung
На сайте с 22.11.2006
Offline
287
#13

Саша Фоменс, так есть же политика :)

Здесь не могла быть ваша реклама
Aisamiery
На сайте с 12.04.2015
Offline
293
#14
Katrin1988:
Это будет бесконечный список, так как вместо букв "о" можно использовать нолики, разбавлять слова подчеркиваниями, заменами одной буквы на другую, сокращение типа "ска, пуй" и т.д. Правильно написали - слов не много, а вот число их вариантов близится к бесконечности :).. о великий и могучий русский матерный язык... можно культурными словами так послать, что матершинник от обиды заплачет

Есть такая штука, как расстояние Левенштейна, да и множество других алгоритмов, которая все эти замены и сокращения сведет на нет. Да понятно дело что что то просочится, но большая масса не пройдет

Разработка проектов на Symfony, Laravel, 1C-Bitrix, UMI.CMS, OctoberCMS
SeVlad
На сайте с 03.11.2008
Offline
1609
#15
Aisamiery:
но большая масса не пройдет

равно как и юзеров, пытающихся написать нормальные слова типа "оскорблять".

Я думал этот маразм умер уже много лет назад, однако нет, находятся ещё некоторые "одарённые"...

Делаю хорошие сайты хорошим людям. Предпочтение коммерческим направлениям. Связь со мной через http://wp.me/P3YHjQ-3.
Aisamiery
На сайте с 12.04.2015
Offline
293
#16
SeVlad:
равно как и юзеров, пытающихся написать нормальные слова типа "оскорблять".

Я думал этот маразм умер уже много лет назад, однако нет, находятся ещё некоторые "одарённые"...

как раз "оскорблять" пройдет спокойно, нужно было просто пройти по ссылке и прочитать статью :)

Расстояние Левенштейна используется для исправление ошибок в основном, от слова оскорблять до похожего запрещенного слова это расстояние огого :)

SeVlad
На сайте с 03.11.2008
Offline
1609
#17
Aisamiery:
как раз "оскорблять" пройдет спокойно, нужно было просто пройти по ссылке и прочитать статью

Ну может и нужно было.. просто для почитать. (потом гляну)

Но на практике, в реальности - не зачем. По двум причинам.

1. Ни ТС ни большинство подобных запрещальщиков это наверняка не в состоянии реализовать. Им же нужен список.

2. Юзер, страстно желающий написать "нечто" это всегда обойдёт. Т.е. тщета всё это. Но при этом возможны ошибки и проблемы с нормальными юзерами (вот та же "сука" или "тварь" - зависит от контекста)

Это как с капчами - призрак борьбы с роботами, а на деле - с людьми.

Aisamiery
На сайте с 12.04.2015
Offline
293
#18
SeVlad:
Ну может и нужно было.. просто для почитать. (потом гляну)
Но на практике, в реальности - не зачем. По двум причинам.
1. Ни ТС ни большинство подобных запрещальщиков это наверняка не в состоянии реализовать. Им же нужен список.
2. Юзер, страстно желающий написать "нечто" это всегда обойдёт. Т.е. тщета всё это. Но при этом возможны ошибки и проблемы с нормальными юзерами (вот та же "сука" или "тварь" - зависит от контекста)

Это как с капчами - призрак борьбы с роботами, а на деле - с людьми.

Все верно, только можно модерировать 100% комментариев, а можно поставить акисмет и не модерировать тонну мусора. Человеческое время дорогое, и никто не просит жестко банить в автомате юзера попытавшего написать слово "утварь", просто можно сильно сократить время модерирования сообщений посылая сигнал только на определенные мессаги где сработал алгоритм.

Тут же все от задачи зависит.

SeVlad
На сайте с 03.11.2008
Offline
1609
#19
Aisamiery:
акисмет

:) Он работает по алгоритму - "ага, вот этот коммет пометили как спам уже 100500 юзеров".

Ну и вечно пополняемая база спам-ключей + ссылки от конкретного юзера (мыла).

При этом он и ошибается не редко, кидая в спам что не есть спам.

Aisamiery:
Тут же все от задачи зависит.

На первый взгляд. И только отчасти.

См. Кому нужно фильтровать слова? Форумы, комменты и пр социалку. Если бы это всё проходило только в одном ключе/тематике - проблем бы не было. Но зачастую даже в тематическом треде приводятся ассоциации, примеры, эмоции и тп (вот возьми даже этот топик) - слова и фразы как бэ выпадают из общей тематики, но.. не выпадают. И так, как нет ещё ИИ - смысла машинам не понять поэтому они и будут создавать проблемы для мыслящих созданий. ;)

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий