Текст созданый по алгоритму цепи Маркова.

hawk121 · 2007-07-04T20:29:09.0000000Z

Извините что задаю подобный вопрос, но нормальной инфы найти не удается. Что такое цепи Маркова и как их используют в производстве дорвеев?:confused:

244

Egi[s]

12 июля 2007, 02:44

#41

luxs:
а вот например текст написанный малограмотным переводчиком? может даже хуже чем автоматическая переводилка - как такой текс рассматривать гуглу?

Помоему гугл никак не относится к тексту вообще (я имею ввиду его стилю изложения), а если и как-то относится, то это всеравно никто не знает как :)

519

greenwood

12 июля 2007, 04:03

#42

Egi[s:
]а если и как-то относится, то это всеравно никто не знает как

на основании статистических данных по обработке реальных/читабельных документов, можно вычислить с высокой достоверностью всё, что угодно

Лишь бы базы были большие и вычислительные мощности

257

AiK

12 июля 2007, 08:39

#43

Egi, Гугль действительно никак не относится к текстам. Он тупо и цинично строит профиль сайта, т.е. вычисляет различные его характеристики, одной из которых может быть качество текста. Когда профиль сайта становится похожим на профиль ранее проштрафившихся сайтов, то следует либо бан либо фильтр, в зависимости от степени похожести. Скажем, текст по своим характеристикам находящийся между разговорным и газетным (в частности, текст этого сообщения обладает подобными характеристиками) и содержащий редкие n-gramm'ы с гораздо большей вероятностью является нагенерённым, чем текст, содержащий те же n-gramm'ы, но по прочим характеристикам похожий на литературный.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

257

AiK

12 июля 2007, 10:05

#44

Проблема с марковским процессом очевидна: то, куда ты пойдёшь, зависит только от того, где ты находишься, но не зависит от того, откуда ты пришёл (классическое определение). Т.е. в связке слов ABCD, полученной по цепи Маркова, пары AB, BC и CD являются широко распространёнными, т.е. выглядят естественно, но тройки ABC и BCD могут легко образовывать банальные конгломераты, т.е. бессистемные соединения. При этом, даже если под A B C и D подразумевать не одно слово, а несколько, то и в этом случае на стыках будут коллизии. Ну, а дальше чистая статистика: коллизий слишком много - не хорошо, слишком мало - тоже не здорово.

вопрос о создании статей Как узнать, есть ли Все вопросы про тИЦ

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Курс биткоина превысил $50 тысяч