Перефразирование производится внутренним механизмом блока морфологии, разработанным, к сожалению, не мной, так что я не смогу рассазать о принципах перефразирования.
Теперь по поводу фраз: перефразированию поддаются только простые фразы, т.е. те, которые имеют только одну пару "подлежащее-сказуемое". Сложносоставные предложения перефразированы не будут. Также могут не перефразироваться фразы, содержащие в качестве подлежащего или сказуемого имена или личные названия, а также выражения в переносном смысле.
Кстати, начиная с версии 0.2a3, перефразирование вынесено в отдельную форму, и к синонимизации относиться уже не будет.
Вчера попытался реализовать проверку схожести текстов по методу десятисловных шинглов. Ничего не получилось - информация есть, а знаний маловато. Поэтому я обращаюсь к разработчикам, уже реализовавшим данный метод проверки схожести текстов: мне нужна библиотека (DLL), которую я смог бы подключать к своей программе и которая умела бы определять сходство текстов по методу десятисловных шинглов. За это я готов дать одну (или несколько?) лицензий на свой синонимайзер. Если у вас есть какие-то соображения по этому поводу, сообщите, пожалуйста, и я рассмотрю любые предложения.
Еще раз спасибо, Глумий, за столь подробный отчет о тестировании!
Некоторые вещи уже реализованы, некоторые в разработке. Думаю, что к концу сегодняшнего дня смогу выложить апдейт - вчера вечером настроение было нерабочее. :(
Кстати, на блоге я уже выложил скриншот нового вида окна ручной обработки текста. Там уже видна реализация одной из фич, которую многие просили - параллельная подсветка измененных слов при клике на любом из окон. Мысль убегать уже не будет. :)
Большое спасибо за столь исчерпывающий багрепорт. Проверьте личку.
Теперь по порядку.
0. размножение будет. Но уже в версии 0.3. Планирую выпустить альфу через 10 дней.
1. Защиту демоверсии сделаю по-другому. Уже сегодня. В демоверсии нельзя будет сохранять текст и/или копировать его в буфер обмена. Для тестирования версия подойдет, для продакшна - нет.
2.К сожалению программа отслеживает измененные слова поодиночке, а не по границам изменений. Это недоработка, буду исправлять.
3. Встречный вопрос: стоит ли это делать для списка слов и списка синонимов, или только для списка синонимов в пользовательской зоне?
4. Забыл добавить картинку в инсталляху. Исправим.
5. В принципе, это возможно - надо будет только добавить еще одну опцию. Вот только вопрос: зачем это будет нужно? Есть ли такие словари?
6. Добавлять в пользовательский словарь весь системный не очень разумно. Он содержит слишком много слов, которые никогда не будут использованы в обычных текстах. В общем-то можно просто сделать в настройках еще одну галку - использовать системный синоним в дополнение к основному. Правда, в этом случае мы вернемся к тому же, с чего и начали - будет много мусора.
7. Это демка, поэтому напоминание нужно. Возможно, нужно сделать вывод напоминаний не каждые 5 минут, а хотя бы каждые 10 минут.
8. Надо будет подумать над таким двойным меню. Подозреваю, что стандартными методами такого не добиться. Надо будет попробовать. Насчет добавления синонима прямо в меню - предложение интересное, надо будет посмотреть, что из этого может получиться.
8а. Приоритет синонимов временно отключен из-за того, что он не был использован и я пока что не очень представляю, как это лучше реализовать. Возможно, приоритеты синонимов вернутся в версии 0.3
9. В настоящее время словосочетания не обрабатываются. В словарь они попали, скорее всего, из-за того, что вы при импорте указали "импортировать все слова". Или это сделал я, когда создавал словарь. Обработка словосочетаний будет реализована чуть позже, правда при этом они не будут иметь синонимов в системном словаре - это ограничение самого системного словаря - и их нужно будет добавлять вручную.
10. Спасибо. :)
11. Я не совсем понял, что вы имеете в виду. Это по поводу обратного синонима Президент-Медведев?
12. раньше для этого была кнопка "Не синоним вообще". Похоже, я погорячился с ее удалением.
И еще раз: спасибо за столь детальный отчет! Ваша лицензия ждет вас. :)
Мда... Как-то я не проверил фильтр на ввод урлов. :)
Исправим, спасибо за баг. :)
Только что на сайт программы было залито обновление программы до версии 0.2а2. Просьба ко всем, кто уже скачал версию 0.2а1 зайти на страницу загрузок и скачать обновление. Также был выложен пользовательский словарь, содержащий чуть более 2000 слов. Все подробности по загрузкам описаны на сайте программы на странице загрузок.
В последней версии исправлен импорт словаря. Теперь вы свободно можете импортировать любые словари в формате слово::син1**син2**син3. Также была исправлена начальная инициализация программы. Теперь программа не падает при загрузке и открытии нового окна ручного режима.
Лучше всего делать не по минимальному изменению, а по крону. Сам когда-то писал такую штуку для сетки сплогов: крон - лучшее решение. Тем более, что на всех нормальных хостингах он есть.
удалил... не увидел ЛС...
Итак, сегодня выпущена версия 0.2а1
Изменения и дополнения:
+ добавлен редактор словаря
+ сделан импорт и экспорт словаря
+ улучшен выбор синонимов
+ доработан пользовательский интерфейс
+ добавлена статистика по заменам
+ добавлены новые менюшки
+ добавлена возможность добавления синонимов слова без захода в словарь
+ файл пользовательского словаря создается автоматически и не удаляется при переустановке программы
Изначально пользовательский словарь пуст - он наполняется во время добавления (или импорта синонимов из системной базы), или с помощью импорта из текстового файла. Более подробно об этом написано в разделе ЧаВо сайта программы.
Пара слов об импорте словаря. Хоть программ и умеет импортировать словарь, но я не рекомендую вам делать это из-за того, что существующие файлы словарей содержат не слишком качественную базу синонимов. Впрочем, вы можете поэкспериментировать, чтобы понять, что составленная вами лично база синонимов будет намного качественней уже существующих. Кроме того, существующие базы содержат большое количество слов, которые вам никогда не пригодятся.
Загрузить последнюю версию можно с официального сайта программы (в подписи).
В дальнейшем в дополнение к инсталляторам я планирую делать файлы обновлений, содержащие только измененные исполняемые файлы. Таким образом вы сэкономите довольно много трафика и времени, требующегося для загрузки 20 мегабайт инсталляционного файла. Подобная практика будет доступна со следующей версии.
Буду рад любым советам и критике. Пожелания может оставлять как здесь, так и на моем блоге (адрес в подписи).
Если мне память не изменяет, то аллсаб это умеет делать.