Сформулируйте задачу, которую вы собираетесь решать алгоритмически за разумное время - Поисковые технологии

Синонимайзеры и закон ципфа.

webpavilion · 2010-11-06T11:43:19.0000000Z

Провел ряд экспериментов с построением кривых Ципфа для различных текстов после синонимизации. Судя по полученным мной результатам естественность текстов с помощью рангового распределения определить не возможно. Проводил кто нибудь подобные эксперименты? Буду рад обсудить результаты с кем нибудь кто понимает о чем речь. webpavilion добавил 06.11.2010 в 15:05 результаты обще доступны, можно ознакомится: часть 1 и часть 2

S

404

Scaryer

17 ноября 2010, 13:31

#31

vitali_y, исходных текстов "сотни миллиардов", а не производных.

генерировать осмысленные тексты

А вы умеете генерировать осмысленные тексты?

33

vitali_y

17 ноября 2010, 15:52

#32

Scaryer:
А вы умеете генерировать осмысленные тексты?

если взять текст и заменить слова на синонимы, кое где поменять порядок слов и абзатцев, даже можно использовать ->

перемешивание букв:

http://www.cherry-design.spb.ru/news/script.php?id=messletters

транслитерация:

http://www.cherry-design.spb.ru/news/script.php?id=translit

т.о. из исходного текста можно сгенерировать его копию достаточно читаемую и примерно сохраняющую смысл исходника.

Scaryer:
сходных текстов "сотни миллиардов", а не производных.

ну так яснее задача будет звучать так:

есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.

алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...

можно подсократить время используя разбиение текстов на классы...

можно подсократить время используя трастовость сайтов...

в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.

т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.

Джон Мюллер о роли Алексей Чекушин: Роботы должны 5 советов по A/B-тестированию

S

404

Scaryer

17 ноября 2010, 16:10

#33

vitali_y, в итоге всё упирается в потребные ресурсы, потому что при увеличении ресурсов, количество "нерешаемых проблем" резко сокращается;-) Если бы на практике всё было так просто, то яндексоиды (да и гуглоиды) всех бы победили.

33

vitali_y

17 ноября 2010, 16:43

#34

Scaryer:
всех бы победили

а они проиграли?

про ресурсы - я ведь не решаю задачу в железе - я говорю, что задача решаема алгоритмически за разумное время. ваших аргументов - оценки времени я не увидел...

S

404

Scaryer

17 ноября 2010, 18:29

#35

а они проиграли?

они борются.

О чем мы "спорим"-то? Вроде бы никто не сомневался, что теоретически поисковики могут отсекать копии, синонимизированные тексты и т.п. Вопрос почему они этого не делают практически.

122

G00DMAN

17 ноября 2010, 19:52

#36

vitali_y:
:) верьте мне на слово, с "навороченными" технологиями я знаком.

У меня есть уверенность, что Ваше знакомство "шапочное".

vitali_y:
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.

Хыыы... :D

vitali_y:
"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!
если для вас написать определитель спама - "высокие технологии"...
это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.
это скорее knowhow... я за правильную терминологию.

Т.е. спам побежден окончательно? Кем же? :D

vitali_y:
ну так яснее задача будет звучать так:
есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.
алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...
можно подсократить время используя разбиение текстов на классы...
можно подсократить время используя трастовость сайтов...
в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.
т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.

В общем случае задача безусловно не решаема. Более того - при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов. Странно, почему такой очевидный факт не доступен Вашему пониманию. :)

Кстати - обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам. Потому и борьба между ними фактически вечна.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

Мэтт Каттс об основных Растолкованный PageRank, часть 4 Руководитель Bing Index Quality

1030

Каширин

18 ноября 2010, 07:49

#37

Я понял: G00DMAN это Wolf в молодости :) Просто один в один.

122

G00DMAN

18 ноября 2010, 10:47

#38

Костя, ты ошибся. :)

Ну и в отличие от Сергея я тут скорее всего проездом. :D

33

vitali_y

18 ноября 2010, 14:36

#39

G00DMAN:
У меня есть уверенность, что Ваше знакомство "шапочное".

G00DMAN:
Хыыы...

типа подколол :)

G00DMAN:
Т.е. спам побежден окончательно? Кем же?

ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.

G00DMAN:
В общем случае задача безусловно не решаема.

так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.

а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.

G00DMAN:
при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов

несогласен

G00DMAN:
обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам

согласен

G00DMAN:
Потому и борьба между ними фактически вечна

несогласен

:)

Регистрации в каталогах Генерация названий/описаний/кратких описаний к Нужна фича для Битрикса:

122

G00DMAN

18 ноября 2010, 21:12

#40

vitali_y:
ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.

Безусловно. Если есть база, т.е. понятен принцип спама.

vitali_y:
так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.
а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.

Задачу же Вы поставили, или забыли уже? :)

vitali_y:
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.

Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.

Ну и простой пример хитрого синонимайзера:

Было:

Сегодня президент РФ Д.А.Медведев прочитал полуторачасовую лекцию в главном здании МГУ им.Ломоносова

Стало:

Прикинь, щас лично сам медвед целую пару выносил нам моск в ГЗ универа!

Такой уровень синонимайзера осилите легко? ;)

vitali_y:
несогласен

Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят. :)

Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход. :)

Рерайтеры и синонимайзеры Посоветуйте по поводу статей Спам достал млин... Есть

Что делать, чтобы попасть в ответы Google Bard

Open AI тестирует память для ChatGPT

Синонимайзеры и закон ципфа.