Текстовый генератор-перефразировщик

123 4
TopperHarley
На сайте с 24.03.2009
Offline
350
#11
sparsis:
подобная программа пишется минут за 5 - 10.

ну вот, биз испорчен

PandoraBox - генератор #1 ( https://pandoraboxx.ru ) :: ContentBox - Новый многопточный парсер текста,картинок,видео и т.д. ( https://pandoraboxx.ru/contentbox.php ) :: Конвертор шаблонов WP/DLE ( https://pandoraboxx.ru/templateconvertor.php )
F
На сайте с 29.06.2010
Offline
82
#12
sparsis:
Просто если там нет не какого логического анализа, а идет просто разрушение шинглов путем переставления слов местами, то подобная программа пишется минут за 5 - 10.

Специально затачивался скрипт под Ворд, чтобы было не более 5% зеленых подчеркиваний.

Я убил на это много времени, не 5-10 минут. Вон L!mur привел ссылку когда это все начиналось - год назад.

L!mur
На сайте с 26.06.2006
Offline
176
#13

Finfuchs просто у ПС, в т.ч. у Яндекса довольно глубокие методы анализа текстов.

http://company.yandex.ru/technology/mystem/

http://www.seonews.ru/events/detail/119707.php

Вот в этом и вопрос - на чем основан метод генератора, как он определяет части предложений, на основе чего он меняет порядок слов, понимает ли он что такое часть речи и умеет ли грамотно менять конструкцию предложений, не ломая основы? Все это вычисляется, так что если уж заморачиваться с этой темой то по полной программе вникать в рус. яз., как это сделала Cognitive Technologies.

10'000 руб/сутки на SEDv4 «MobyDick»! (/ru/forum/comment/12653555) Нужен трафик? Купи «SED» (http://www.sedv4.ru) 5'000 руб/сутки на SEDv3 (/ru/forum/comment/11641425) Для работы с Twitter только TwiFarmv3! (/ru/forum/839117)
VT
На сайте с 20.11.2010
Offline
14
#14
http://www.seonews.ru/events/detail/119707.php:
Яндекс купил право использовать Программный Комплекс от компании Cognitive Technologies, который предоставляет возможность синтаксического анализа текста. Синтаксический анализ текста необходим для того, чтобы понять, какие отношения связывают слова в словосочетаниях или предложениях. «Применение синтаксического анализатора позволяет проводить сравнение текстов на основе встречаемости в них различных слов и конструкций и разрабатывать методы понимания текстов, извлечения данных из текстов, а также другие приложения», - сообщается в пресс-релизе компании.

Итак давайте разберёмся! 🚬 Что же такое синтаксический анализатор? Здесь сказано, что языковую систему условно можно разбить на уровни:

  • фонемный;
  • морфемный;
  • лексический (словесный);
  • синтаксический (уровень предложения).

Предположим что мы справились с пунктуацией и оказались на уровне предложения. Предложение состоит из лексем (слов), а слова из морф (частей слова, таких как корень, суффикс и т.д.), что даёт нам характеристику к какой части речи принадлежит слово. Частей речи в русском языке, с падежами, склонениям и прочим, чуть мене чем дофига http://corpus.leeds.ac.uk/mocky/ru-table.tab

Итак всё готово для синтаксического анализа: осталось узнать есть ли предложение с таким частями речи в языке? Здесь подходит тривиальное решение - база данных.

Собственно я не знаю что такого есть у Яндекса что не доступно простым смертным?

Может это:

http://company.yandex.ru/technology/mystem/help.xml:


В{В}мурелки{мурелка?|мурелки?|мурелок?}шлепают{шлепать}пельсиски{пельсиска?}

P.S.: Это я так понимаю собственная разработка яндекса, которую они всё таки решили не использовать 😂

F
На сайте с 29.06.2010
Offline
82
#15

В том и прелесть русского языка, что можно переставлять слова в предложении, не теряя смысла.

Прелесть языка русского и в том, что в предложении слова переставлять можно, смысла не теряя.

Языка русского и в том прелесть, что слова можно в предложении переставлять, не теряя смысла.

empowered
На сайте с 16.10.2009
Offline
88
#16

В русском языке в предложениях можно попытаться переставить слова (без потери смысла), но с потерей читаемости.

П.С. Шингл шинглом, но если они будут считать части речи внутри предложения?

Dicfro
На сайте с 10.11.2010
Offline
27
#17

ТС, как индексируется обработанный текст? есть примеры сайтов в индексе?

F
На сайте с 29.06.2010
Offline
82
#18
Dicfro:
ТС, как индексируется обработанный текст? есть примеры сайтов в индексе?

Скинул в личку. Просьба не палить публично, с сайта идет деньга.

L!mur
На сайте с 26.06.2006
Offline
176
#19
VenyaTolinov:
Собственно я не знаю что такого есть у Яндекса что не доступно простым смертным?

У Яндекса есть общая картина РУнета, миллионов сайтов, со статистикой, данными по анализу текста различных тематик итд.

Не будем приписывать машине волшебных свойств, но кое-что он все-таки может, например отлавливать такие тексты.

VT
На сайте с 20.11.2010
Offline
14
#20
L!mur:
У Яндекса есть общая картина РУнета, миллионов сайтов, со статистикой, данными по анализу текста различных тематик итд.
Не будем приписывать машине волшебных свойств, но кое-что он все-таки может, например отлавливать такие тексты.

Я тебе в личку написал, глянь плс.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий