Бредотекст по алгоритму Маркова - текст на тест

12
.:nbd:.
На сайте с 04.11.2008
Offline
98
#11
BredoGen:
Чтобы набрать большое количество разных вариаций. Больше цепей, лучше уникальность - проще вычислить мало употребляемые сочетания и удалить. Пропадает необходимость парсить новые тексты. Даже при совпадении по шинглам источники будут разные.

Зачем, что-то удалять? Может имеет смысл использовать

мало употребляемые сочетания
ровно столько, сколько они встречаются в живом тексте?
Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)
BredoGen
На сайте с 26.04.2009
Offline
6
#12
.:nbd:.:
Зачем, что-то удалять? Может имеет смысл использовать ровно столько, сколько они встречаются в живом тексте?

На большом объеме сразу видно опечатки, слова с ошибками и другие артефакты. (например глюки сканера и обрывы слов с переносами)

Поэтому удалял этот мусор, которого не бывает в живом тексте. Чем больше исходный объем, тем виднее несовпадения - может яндекс как раз по такой статистике и фильтрует?

Когда у общества нет цветовой дифференциации штанов — то нет цели!
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий