Оптимальный вариант перемешивания текста

Ш2

9

школьнег_29A

4 августа 2008, 17:32

2612

В БД имеется 200 эрорасказов как лучше всего организовать перемешивание текста?

1. Брать 1 рассказ, менять местами предложения?

2. Брать 1 рассказ, менять местами слова?

3. Брать несколько рассказов и вставлять по очереди по предложению из каждого?

4. Брать несколько рассказов и вставлять по очереди по слову из каждого?

5. Нах вся эта возня лучше прогнать синонимайзером?

6. Нах вся эта возня лучше надергать снипетов ?

7. Ваш вариант

FIDO FOREVER !

68

firacet

4 августа 2008, 17:53

#1

Мой вариант - собрать это все в кучу, разбить на слова - проанализировать слова которые идут после этих слов. все это запихнуть в масив и на этом сгенерить 10000000 уникальных текстов!

Сбылись мечты народный: Мир-Труд-Май

Ш2

9

школьнег_29A

4 августа 2008, 18:14

#2

вы проверяли насколько это будет съедобно для пски ? как анализируете следующее слово или цепочку ?

224

rasiell

4 августа 2008, 18:42

#3

ИМХО будущее за генерацией текста, а не за перемешиванием

Ш2

9

школьнег_29A

4 августа 2008, 18:55

#4

если перемешивать по словам то очень размыта грань между перемешиванием и генерацией, а набор исходных текстов упрощает задачу по генерации текста на определенную тему ..

C

114

censored!

4 августа 2008, 19:26

#5

проанализировать слова которые идут после этих слов

Так работают Цепи Маркова. =)

7. Ваш вариант

Расширить "текстовым расширителем" (если не много - могу прогнать) + по верху пройтись самым простым синонимайзером. На выходе - абсолютно читаемый текст + довольно уникальный.

ИМХО, самые лучшие VDS: https://cp.inferno.name/aff.php?aff=4048

Ш2

9

школьнег_29A

4 августа 2008, 19:35

#6

censored!:
Расширить "текстовым расширителем" (если не много - могу прогнать) + по верху пройтись самым простым синонимайзером. На выходе - абсолютно читаемый текст + довольно уникальный.

а можно поподробней про "расширитель" ? он самодельный ?

224

rasiell

4 августа 2008, 20:02

#7

школьнег_29A:
если перемешивать по словам то очень размыта грань между перемешиванием и генерацией, а набор исходных текстов упрощает задачу по генерации текста на определенную тему ..

А если, допустим, генерация по словарю, слова в котором заранее напарсины с тематических страниц

Собственно навеяно вот этим http://www.jeka911.com/articles/about_all/85000/ - тут обсуждалось /ru/forum/235648

Ш2

9

школьнег_29A

4 августа 2008, 20:10

#8

не вижу большой разницы: словарь слова в котором заранее напарсины с тематических страниц или же база с этими самыми тематическими страницами ..

зыж: самое неприятное что узнать насколько успешен вышел получившийся текст можно только через неделю-две :(

224

rasiell

4 августа 2008, 20:20

#9

А вы обращали внимание как всякие системы по типу антиплагиата показывают процентное соответствие текстов? Думаю поисковики работают по похожим алгоритмам. Может стоит попробовать перед тем как писать софт вручную испробовать эти варианты на примере нескольких предложений?

И ИМХО генерация предложений по словарю уменьшает вероятность того, что текст будет не уникальным, т.к. допустим слова берутся рандомно из словаря, а когда перемешиваются предложения и слова в них они всеравно находятся ближе друг к другу

68

firacet

4 августа 2008, 20:35

#10

школьнег_29A:
вы проверяли насколько это будет съедобно для пски ? как анализируете следующее слово или цепочку ?

Проверял - давольно сьедобно для ПС.

Следующее слово выбираю рэндомом.

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Маркетинг для шоколадной фабрики. На 34% выше средний чек