Оптимальный вариант перемешивания текста

12
Ш2
На сайте с 24.07.2008
Offline
9
2610

В БД имеется 200 эрорасказов как лучше всего организовать перемешивание текста?

1. Брать 1 рассказ, менять местами предложения?

2. Брать 1 рассказ, менять местами слова?

3. Брать несколько рассказов и вставлять по очереди по предложению из каждого?

4. Брать несколько рассказов и вставлять по очереди по слову из каждого?

5. Нах вся эта возня лучше прогнать синонимайзером?

6. Нах вся эта возня лучше надергать снипетов ?

7. Ваш вариант

FIDO FOREVER !
firacet
На сайте с 23.07.2008
Offline
68
#1

Мой вариант - собрать это все в кучу, разбить на слова - проанализировать слова которые идут после этих слов. все это запихнуть в масив и на этом сгенерить 10000000 уникальных текстов!

Сбылись мечты народный: Мир-Труд-Май
Ш2
На сайте с 24.07.2008
Offline
9
#2

вы проверяли насколько это будет съедобно для пски ? как анализируете следующее слово или цепочку ?

rasiell
На сайте с 16.02.2008
Offline
224
#3

ИМХО будущее за генерацией текста, а не за перемешиванием

Ш2
На сайте с 24.07.2008
Offline
9
#4

если перемешивать по словам то очень размыта грань между перемешиванием и генерацией, а набор исходных текстов упрощает задачу по генерации текста на определенную тему ..

C
На сайте с 20.09.2007
Offline
114
#5
проанализировать слова которые идут после этих слов

Так работают Цепи Маркова. =)

7. Ваш вариант

Расширить "текстовым расширителем" (если не много - могу прогнать) + по верху пройтись самым простым синонимайзером. На выходе - абсолютно читаемый текст + довольно уникальный.

ИМХО, самые лучшие VDS: https://cp.inferno.name/aff.php?aff=4048
Ш2
На сайте с 24.07.2008
Offline
9
#6
censored!:
Расширить "текстовым расширителем" (если не много - могу прогнать) + по верху пройтись самым простым синонимайзером. На выходе - абсолютно читаемый текст + довольно уникальный.

а можно поподробней про "расширитель" ? он самодельный ?

rasiell
На сайте с 16.02.2008
Offline
224
#7
школьнег_29A:
если перемешивать по словам то очень размыта грань между перемешиванием и генерацией, а набор исходных текстов упрощает задачу по генерации текста на определенную тему ..

А если, допустим, генерация по словарю, слова в котором заранее напарсины с тематических страниц

Собственно навеяно вот этим http://www.jeka911.com/articles/about_all/85000/ - тут обсуждалось /ru/forum/235648

Ш2
На сайте с 24.07.2008
Offline
9
#8

не вижу большой разницы: словарь слова в котором заранее напарсины с тематических страниц или же база с этими самыми тематическими страницами ..

зыж: самое неприятное что узнать насколько успешен вышел получившийся текст можно только через неделю-две :(

rasiell
На сайте с 16.02.2008
Offline
224
#9

А вы обращали внимание как всякие системы по типу антиплагиата показывают процентное соответствие текстов? Думаю поисковики работают по похожим алгоритмам. Может стоит попробовать перед тем как писать софт вручную испробовать эти варианты на примере нескольких предложений?

И ИМХО генерация предложений по словарю уменьшает вероятность того, что текст будет не уникальным, т.к. допустим слова берутся рандомно из словаря, а когда перемешиваются предложения и слова в них они всеравно находятся ближе друг к другу

firacet
На сайте с 23.07.2008
Offline
68
#10
школьнег_29A:
вы проверяли насколько это будет съедобно для пски ? как анализируете следующее слово или цепочку ?

Проверял - давольно сьедобно для ПС.

Следующее слово выбираю рэндомом.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий