Текст созданый по алгоритму цепи Маркова.

Egi[s]
На сайте с 08.04.2007
Offline
244
#41
luxs:
а вот например текст написанный малограмотным переводчиком? может даже хуже чем автоматическая переводилка - как такой текс рассматривать гуглу?

Помоему гугл никак не относится к тексту вообще (я имею ввиду его стилю изложения), а если и как-то относится, то это всеравно никто не знает как :)

greenwood
На сайте с 08.09.2003
Offline
519
#42
Egi[s:
]а если и как-то относится, то это всеравно никто не знает как

на основании статистических данных по обработке реальных/читабельных документов, можно вычислить с высокой достоверностью всё, что угодно

Лишь бы базы были большие и вычислительные мощности

AiK
На сайте с 27.10.2000
Offline
257
AiK
#43

Egi, Гугль действительно никак не относится к текстам. Он тупо и цинично строит профиль сайта, т.е. вычисляет различные его характеристики, одной из которых может быть качество текста. Когда профиль сайта становится похожим на профиль ранее проштрафившихся сайтов, то следует либо бан либо фильтр, в зависимости от степени похожести. Скажем, текст по своим характеристикам находящийся между разговорным и газетным (в частности, текст этого сообщения обладает подобными характеристиками) и содержащий редкие n-gramm'ы с гораздо большей вероятностью является нагенерённым, чем текст, содержащий те же n-gramm'ы, но по прочим характеристикам похожий на литературный.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#44

Проблема с марковским процессом очевидна: то, куда ты пойдёшь, зависит только от того, где ты находишься, но не зависит от того, откуда ты пришёл (классическое определение). Т.е. в связке слов ABCD, полученной по цепи Маркова, пары AB, BC и CD являются широко распространёнными, т.е. выглядят естественно, но тройки ABC и BCD могут легко образовывать банальные конгломераты, т.е. бессистемные соединения. При этом, даже если под A B C и D подразумевать не одно слово, а несколько, то и в этом случае на стыках будут коллизии. Ну, а дальше чистая статистика: коллизий слишком много - не хорошо, слишком мало - тоже не здорово.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий