Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java

Меня часто спрашивают про стоимость в рублях ее можно узнать здесь http://rate-of-exchange.org/.

Стуктура текста - очень абстактное определение.

Что в нее входит?

kevindark:
Hkey, эх, сложность ведь не в программировании состоит в этой теме... код написать можно любой. Сложность в том, по какому алгоритму это все должно работать)

kevindark, видите ли эти эвристики это одна из частей софта. Прецедентный синомайзинг. Плюс общие эвристики для предложений, которые в скриптах не пишутся. +Еще преувеличения.

Алгоритм такой:

вся это радость прецедентным синомайзингом обрабатывается

потом идут общие евристики для предложений потом

эти эвристики

еще преувеличения

и текст меняется, очень сильно например:

Чтобы сделать ваше задание нужно много затрат как финансовых, так и трудовых.

Синомайзинг

чтобы => для того, чтобы

сделать => выполнить или изготовить или произвести

ваше =>

задание=>поручение

нужно => необходимо или требуется

много => большое к-во

....

Прецедентный отбор

чтобы => для того, чтобы

ОК связанных слов нет

сделать =>

связанное слово "задание"

выполнитьОК встречается в сочетании с выбранным словом

изготовитьNO Не встречается....

произвестиNO Не встречается...

ваше => NO Синоним пуст.

....

....

....

много =>

связанное слово "затрат"

большое к-воNO Не встречается....

Получаем

Для того, чтобы выполнить ваше поручение необходимо много затрат как финансовых, так и трудовых.

Условный синомайзинг описанные евристики

Чтобы сделать ваше задание нужно много затрат как финансовых, так и трудовых.

=>

Для выполнения вашего поручения необходимо много финансовых и трудовых затрат.

преувеличения:

Для выполнения вашего поручения необходимо очень много финансовых и трудовых затрат.

P.S.

1.Текст получился лучше чем оригинал, но это далеко не всегда так.

Из этого выплывает еще одно применение - улучшение читаемости текста.

2. Эвристики на уровне предложений ничего не сделали. Можно было бы слово "Вашего" удалить.

3. Эвристики и синомайзинг в этом случае сделали дурную работу с первым словом. Иногда результаты не столь безболезнен. Это одна из основных проблем.

kevindark, я знаю, что работы много будет с программингом. Нужно менять движ. и эвристики более высокого уровня (действующие на предложения и на группы предложений).

это я знаю, я просто из гайда выдернул кусок

в этой эвристике есть тонкость существительному присваиваеться род, если род не соответствует исходному, то замена не осуществляеться. Т.К. род существительного менять нельзя. Это на случай если в исходном тексте есть ошибки. Или проблемы в эвристике.

Например, при входе "одна из способов" замена не будет осуществлена.

greenwood:
Hkey, этот год будет усиленной работы над генерацией контентов как для рунета, так и для буржуйского. Кто что-то толковое сделает - ждут очень неплохие доходы.

К сожалению для буржунета у мну нету людей со знанием правил построения предложений и таблиц словоформ да и базы синонимов.

Синомайзер меняющий только синонимы Гугл раскусит, как мне кажеться. Нужно менять структуру предложений либо даже сливать/разделять предложения.

Базу НЕ ПОЛУЧИЛ!!!!!!!!!!!!

MySQL и индексы

скоко будет искать все предложения в которых есть слово "задание" и все его словоформы из полумилиарда предложений? И скоко это памяти жрать будет?

точно бред

Всего: 2639