Дорген, генерация текста

CR
На сайте с 21.11.2008
Offline
46
5109

Сел писать модуль генерации текста и че то завис.. Как лучше

1. Брать кусок какого то готового ТЕМАТИЧНОГО текста и через определеннный промежуток разбавлять кеями.

2. НЕТЕМАТИЧНЫЙ текст брать.

3. Генерить абсолютную ересь по словарю слов + киворды время от времени.

4. Чисто кеи, а текст брать синонимизированный

5. ваш вариант.

Если есть идеи и способы отпишите плиз, так или иначе дорген планируется сделать бесплатным (это будет модификация тиражера)..

Web-developer. PM me or icq:239836
[Удален]
#1

Первые четыре - такой бред если честно. Он будет НЕУНИКАЛЬНЫМ. Зачем он такой? Третий - тупо, лучше Марков.

Сделаете - http://www.cultseo.ru/seo/algoritm-generacii-dorveya/ и будет вам счастье

su-root
На сайте с 15.08.2008
Offline
73
#2

я и vitvvs'ом как-то задумались на эту тему и вот что у нас получилось. Посмотрите и вам многое станет понятно.

Кто ищет смысл, пусть сидит на небесах - в своих глазах!
[Удален]
#3

su-root, Вот это я понимаю - заморочились )

И как? Эффект хоть есть? Только честно :)

su-root
На сайте с 15.08.2008
Offline
73
#4

Генерирует неплохо, практически рассказы пишет. Когда читаешь понятно что бред, но с морфологией там все ок. Прошел по ссылке, данной вами почитал:

глаголы выдирать по присутствию тся/ться

не совсем так. Надо скорее определить переходность глагола, для того, чтоб он встал на свое место. Есть переходные глаголы и без частички "ся"...

[Удален]
#5
Надо скорее определить переходность глагола, для того, чтоб он встал на свое место. Есть переходные глаголы и без частички "ся"...

Ну я же там смеюсь ) Специально смайлик поставил.

Неужели нужно прямолинейно объявлять - Внимание! Сейчас шутка!

[Удален]
#6

сам тоже собрался писать генератор, точнее написал прогу по импорту на ucoz сайты, остался только генератор, но я думаю не заморачиваться и обычный синомайзер прикрутить + рандомная вставка кеев в зав-ти от плотности.

KU
На сайте с 09.07.2009
Offline
61
#7
falkhan:

Сделаете - http://www.cultseo.ru/seo/algoritm-generacii-dorveya/ и будет вам счастье

Что то подобное делал только не для доров, а для ГС для продажи ссылочного, там как раз делал обратную оптимизацию, чтобы трафика мало шло(меньше нагрузки на хостинг, меньше вероятность стука).

Немного только другая концепция была:

1. Союзы знаки пунктуации не мусор, а важный связующий член предложения.

2. С определением глаголов проблем не было, в словаре Зализняка все есть, сложнее с существительными например с географическими названиями. К тому-же предложения может быть и без подлежащего или сказуемого, или без обоих.

3. Блоки выбирал исходя из верстки и знаков препинания, например </p>, </br> и т.д. обрывают предложения. Удалялся мусор в виде меню, и постоянно присутствующих блоков.

4. Делается максимально возможный разбор предложения(до конца так пока и не удалось сделать, велик и могуч Русский язык), выявляются согласования частей предложения, например дом может быть у дороги, но не может быть в океане, все найденный части удаляются.

5. Кусок предложения который остался после п.4 дополнятся по алгоритму обратному п.4

6. ????????.

7. Profit.

.:nbd:.
На сайте с 04.11.2008
Offline
98
#8

Помнится, когда-то очень сильно заморачивался этой темой. Написал пару генераторов, но на выходе получалась такая ересь, что использовать ее где-то, не имело смысла. Вообще, не реально написать генератор текста на русском языке, который бы смог выдать текст, способный заставить человека поверить в то, что это текст написан человеком. Для доров вполне подойдет текст, который будет в состоянии пройти проверку алгоритмом ПС на принадлежность его к тексту для людей. Так как, ПС не может выявить смысловую нагрузку (а точнее ее отсутствие) текста прямым путем (путем осознания), значит она проверяет текст(ы) другим более приметивным способом. Логичнее всего предположить, что проверяется место слов, то есть, берем предложение и смотрим какое слово идет за следующим словом (примерно так же как работает генерация по цепям Маркова), на следующем этапе проверяем процент действительного употребление данного порядка слов в русском языке. И если процент встречаемости слов не превышает какого-то порогового значения, то алгоритм принимает решение, исключить данный текст из результатов поиска, так как он не несет никакой смысловой нагрузки, а является тупым набором слов. Но тут появляется спорная ситуация, ведь Марковка уже давно не рулит, значить данный способ проверки текстов не является правильным, но.. Как всегда есть одно но. "Марков" генерирует текст основываясь на случайности, то есть, если данный порядок слов встречается в тексте (здесь размер текста не имеет никакого значения) всего 1(!!!) раз, то данный порядок слов является равновероятным(!!!) в сравнении с другим порядком слов, который встречается в тексте более (возможно знакительно более) одного раза. Отсуда вывод, что "Марков" не в состоянии подняться выше порогового значения, и как следствие исключение текстов им сгенерированных из индекса.

Палю тему Дорген (/ru/forum/439165) + кеи + контент (http://datarama.biz/) + еще немного кеев и скриптов (http://amazingsoftware.ru/) = $$$ Мы делаем доры, а не пишем романы (c) один Дима рефка dino_spomoni (http://goo.gl/w62v3)
su-root
На сайте с 15.08.2008
Offline
73
#9

По пункту 4 можно поделить только по семантическому признаку... Пространство и место а другая пачка слов это предметы и их части. Соответственно пространства то-же бывают разными: конечна же топонимы, пространства, вместилища, множества и имена классов. И так далее... После такой обработки (гемор конечна) ляпов в тексте будит еще меньше.

Gorodetskiy
На сайте с 17.07.2008
Offline
84
#10

Мда, вот и все люди из этого раздела, у которых есть голова :)

Ну, чутка подскажу :) Значит, как уже правильно сказал su-root, слова должны быть разбиты на группы, т.к. простейшая морфологическая подмена при сложных структурах предложений выдает очень кислые варианты. А если фильтровать союзы, предлоги и знаки препинания - выходит вообще такая ересь, так что изначально надо ставить цели создать качественную структуру предложения.

Под этим понятием я подразумеваю не просто определить морфологию каждого слова и сделать под ним подмену, а так же выделить группу, к которой то или иное слово относится. Например в шаблоне глагол "отправить" нельзя заменять на "залезть" - т.к. после этих слов существительные должны идти в разных падежах.

Это такой вот маленький кусочек, что б людям не представлялся весь этот процесс в радужных тонах ;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий