Синонимайзеры и закон ципфа.

S
На сайте с 29.01.2006
Offline
404
#31

vitali_y, исходных текстов "сотни миллиардов", а не производных.

генерировать осмысленные тексты

А вы умеете генерировать осмысленные тексты?

vitali_y
На сайте с 23.05.2007
Offline
33
#32
Scaryer:
А вы умеете генерировать осмысленные тексты?

если взять текст и заменить слова на синонимы, кое где поменять порядок слов и абзатцев, даже можно использовать ->

перемешивание букв:

http://www.cherry-design.spb.ru/news/script.php?id=messletters

транслитерация:

http://www.cherry-design.spb.ru/news/script.php?id=translit

т.о. из исходного текста можно сгенерировать его копию достаточно читаемую и примерно сохраняющую смысл исходника.

Scaryer:
сходных текстов "сотни миллиардов", а не производных.

ну так яснее задача будет звучать так:

есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.

алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...

можно подсократить время используя разбиение текстов на классы...

можно подсократить время используя трастовость сайтов...

в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.

т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.

S
На сайте с 29.01.2006
Offline
404
#33

vitali_y, в итоге всё упирается в потребные ресурсы, потому что при увеличении ресурсов, количество "нерешаемых проблем" резко сокращается;-) Если бы на практике всё было так просто, то яндексоиды (да и гуглоиды) всех бы победили.

vitali_y
На сайте с 23.05.2007
Offline
33
#34
Scaryer:
всех бы победили

а они проиграли?

про ресурсы - я ведь не решаю задачу в железе - я говорю, что задача решаема алгоритмически за разумное время. ваших аргументов - оценки времени я не увидел...

S
На сайте с 29.01.2006
Offline
404
#35
а они проиграли?

они борются.

О чем мы "спорим"-то? Вроде бы никто не сомневался, что теоретически поисковики могут отсекать копии, синонимизированные тексты и т.п. Вопрос почему они этого не делают практически.

G00DMAN
На сайте с 19.04.2008
Offline
122
#36
vitali_y:
:) верьте мне на слово, с "навороченными" технологиями я знаком.

У меня есть уверенность, что Ваше знакомство "шапочное".

vitali_y:
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.

Хыыы... :D

vitali_y:
"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!
если для вас написать определитель спама - "высокие технологии"...
это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.
это скорее knowhow... я за правильную терминологию.

Т.е. спам побежден окончательно? Кем же? :D

vitali_y:
ну так яснее задача будет звучать так:
есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.
алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...
можно подсократить время используя разбиение текстов на классы...
можно подсократить время используя трастовость сайтов...
в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.
т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.

В общем случае задача безусловно не решаема. Более того - при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов. Странно, почему такой очевидный факт не доступен Вашему пониманию. :)

Кстати - обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам. Потому и борьба между ними фактически вечна.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
Каширин
На сайте с 03.01.2004
Offline
1030
#37

Я понял: G00DMAN это Wolf в молодости :) Просто один в один.

G00DMAN
На сайте с 19.04.2008
Offline
122
#38

Костя, ты ошибся. :)

Ну и в отличие от Сергея я тут скорее всего проездом. :D

vitali_y
На сайте с 23.05.2007
Offline
33
#39
G00DMAN:
У меня есть уверенность, что Ваше знакомство "шапочное".
G00DMAN:
Хыыы...

типа подколол :)

G00DMAN:
Т.е. спам побежден окончательно? Кем же?

ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.

G00DMAN:
В общем случае задача безусловно не решаема.

так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.

а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.

G00DMAN:
при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов

несогласен

G00DMAN:
обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам

согласен

G00DMAN:
Потому и борьба между ними фактически вечна

несогласен

:)

G00DMAN
На сайте с 19.04.2008
Offline
122
#40
vitali_y:
ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.

Безусловно. Если есть база, т.е. понятен принцип спама.

vitali_y:
так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.
а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.

Задачу же Вы поставили, или забыли уже? :)

vitali_y:
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.

Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.

Ну и простой пример хитрого синонимайзера:

Было:

Сегодня президент РФ Д.А.Медведев прочитал полуторачасовую лекцию в главном здании МГУ им.Ломоносова

Стало:

Прикинь, щас лично сам медвед целую пару выносил нам моск в ГЗ универа!

Такой уровень синонимайзера осилите легко? ;)

vitali_y:
несогласен

Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят. :)

Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход. :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий