ortega3000

ortega3000
Рейтинг
32
Регистрация
11.06.2007
kapow_expert:
Каким образом Вы делаете перефразирование. В любом ли случае каждое предложение будет перефразировано(в соотв с настройками конечно)? Какие правила перефразировки у Вас есть?
Можно весь список сюда?

Спасибо

Перефразирование производится внутренним механизмом блока морфологии, разработанным, к сожалению, не мной, так что я не смогу рассазать о принципах перефразирования.

Теперь по поводу фраз: перефразированию поддаются только простые фразы, т.е. те, которые имеют только одну пару "подлежащее-сказуемое". Сложносоставные предложения перефразированы не будут. Также могут не перефразироваться фразы, содержащие в качестве подлежащего или сказуемого имена или личные названия, а также выражения в переносном смысле.

Кстати, начиная с версии 0.2a3, перефразирование вынесено в отдельную форму, и к синонимизации относиться уже не будет.

Вчера попытался реализовать проверку схожести текстов по методу десятисловных шинглов. Ничего не получилось - информация есть, а знаний маловато. Поэтому я обращаюсь к разработчикам, уже реализовавшим данный метод проверки схожести текстов: мне нужна библиотека (DLL), которую я смог бы подключать к своей программе и которая умела бы определять сходство текстов по методу десятисловных шинглов. За это я готов дать одну (или несколько?) лицензий на свой синонимайзер. Если у вас есть какие-то соображения по этому поводу, сообщите, пожалуйста, и я рассмотрю любые предложения.

Еще раз спасибо, Глумий, за столь подробный отчет о тестировании!

Некоторые вещи уже реализованы, некоторые в разработке. Думаю, что к концу сегодняшнего дня смогу выложить апдейт - вчера вечером настроение было нерабочее. :(

Кстати, на блоге я уже выложил скриншот нового вида окна ручной обработки текста. Там уже видна реализация одной из фич, которую многие просили - параллельная подсветка измененных слов при клике на любом из окон. Мысль убегать уже не будет. :)

Глумий:
Ну что же. Очередная порция багрепорта.
0. Таки что, размножителя не будет??? [с1|с2|с3|с4]
1. Явный досадный баг. Делается замена прошла-демонстрация, к-демонстарция и т.д. На самом деле программа при клике в обработанном тексте на замене дает информацию, что это в-демонстарция. Очень странно. Мешает нормально затестить данный релиз :(
2. Когда - В какое время. Не дает выбрать синоним в обработанном тексте (крайне правое окно). Не получается. Только добавить можно новый.
3. Редактор словаря. Удалить выделенное слово требует дополнительного подтверждения в диалоге. Имхо лишнее. Все равно можно добавить из правой колонки.
4. Помощь. Редактор словаря. Картинка не подгрузилась
5. По поводу импорта. На сколько понял запись добавляется так: Слово::синоним1**синоним2**синоним3. Возможно ли и нужно ли(?) добавлять и остальные варианты типа: синоним1::Слово**синоним2**синоним3 , синоним2::Слово**синоним1**синоним3 и т.д.
6. Хочу кнопку, а может запись в помощи как добавить в пользовательский словарь весь системный.
7. через 5 минут выскакивает окошко про лицензию и посещение сайта автора. Это фича? :)))
8. Выпадающее контекстное меню синонимов. А может сразу в раскрытом виде подменю "Заменить синоним на" показывать, чтобы можно было одним кликом выбирать? Т.е. будет 2 рядом. И так же бы сделал добавить синоним там же с полем ввода. А то так долго тыкаться.
8a. и, кстати, сразу тут же. Если юзер вручную выбрал нужный синоним - дать ему (синониму)очков (как наиболее правильный). А кстати, где баллы-то??? :( Идея была прикольной, имхо. Их можно хотя бы неявно как сказал, использовать. Получится как бы самообучение и ускорение работы пользователя.
9. Словарь. Фразы в конце концов и другие не имеют синонимов в системном и пользовательском словаре. Что они делают в базе тогда? Баг?
10. Галка "обратный синоним" - зачет!
11. Однако добавление синонима "Медведев-президент" не ведет к корректной замене: Сам Медведев пожал руку - Сам Президент пожал руку. В принципе мелочь, никто я, думаю, так не будет морочиться. Можно не прорабатывать
12. В Контестном меню синонимов нуден пункт "Удалить синоним" - чтобы из польз.словаря удалялось

Пока все, потому как пункт 1 мешает продолжить оценку.

Версия 0.2а2

Большое спасибо за столь исчерпывающий багрепорт. Проверьте личку.

Теперь по порядку.

0. размножение будет. Но уже в версии 0.3. Планирую выпустить альфу через 10 дней.

1. Защиту демоверсии сделаю по-другому. Уже сегодня. В демоверсии нельзя будет сохранять текст и/или копировать его в буфер обмена. Для тестирования версия подойдет, для продакшна - нет.

2.К сожалению программа отслеживает измененные слова поодиночке, а не по границам изменений. Это недоработка, буду исправлять.

3. Встречный вопрос: стоит ли это делать для списка слов и списка синонимов, или только для списка синонимов в пользовательской зоне?

4. Забыл добавить картинку в инсталляху. Исправим.

5. В принципе, это возможно - надо будет только добавить еще одну опцию. Вот только вопрос: зачем это будет нужно? Есть ли такие словари?

6. Добавлять в пользовательский словарь весь системный не очень разумно. Он содержит слишком много слов, которые никогда не будут использованы в обычных текстах. В общем-то можно просто сделать в настройках еще одну галку - использовать системный синоним в дополнение к основному. Правда, в этом случае мы вернемся к тому же, с чего и начали - будет много мусора.

7. Это демка, поэтому напоминание нужно. Возможно, нужно сделать вывод напоминаний не каждые 5 минут, а хотя бы каждые 10 минут.

8. Надо будет подумать над таким двойным меню. Подозреваю, что стандартными методами такого не добиться. Надо будет попробовать. Насчет добавления синонима прямо в меню - предложение интересное, надо будет посмотреть, что из этого может получиться.

8а. Приоритет синонимов временно отключен из-за того, что он не был использован и я пока что не очень представляю, как это лучше реализовать. Возможно, приоритеты синонимов вернутся в версии 0.3

9. В настоящее время словосочетания не обрабатываются. В словарь они попали, скорее всего, из-за того, что вы при импорте указали "импортировать все слова". Или это сделал я, когда создавал словарь. Обработка словосочетаний будет реализована чуть позже, правда при этом они не будут иметь синонимов в системном словаре - это ограничение самого системного словаря - и их нужно будет добавлять вручную.

10. Спасибо. :)

11. Я не совсем понял, что вы имеете в виду. Это по поводу обратного синонима Президент-Медведев?

12. раньше для этого была кнопка "Не синоним вообще". Похоже, я погорячился с ее удалением.

И еще раз: спасибо за столь детальный отчет! Ваша лицензия ждет вас. :)

Evildeath:

:P

Evildeath добавил 06.08.2008 в 16:41
мини баг)

:P

Мда... Как-то я не проверил фильтр на ввод урлов. :)

Исправим, спасибо за баг. :)

Только что на сайт программы было залито обновление программы до версии 0.2а2. Просьба ко всем, кто уже скачал версию 0.2а1 зайти на страницу загрузок и скачать обновление. Также был выложен пользовательский словарь, содержащий чуть более 2000 слов. Все подробности по загрузкам описаны на сайте программы на странице загрузок.

В последней версии исправлен импорт словаря. Теперь вы свободно можете импортировать любые словари в формате слово::син1**син2**син3. Также была исправлена начальная инициализация программы. Теперь программа не падает при загрузке и открытии нового окна ручного режима.

думаю:

как только что то меняется, скрипт генерирует новые странички из базы ( примерно.. )

Лучше всего делать не по минимальному изменению, а по крону. Сам когда-то писал такую штуку для сетки сплогов: крон - лучшее решение. Тем более, что на всех нормальных хостингах он есть.

удалил... не увидел ЛС...

Итак, сегодня выпущена версия 0.2а1

Изменения и дополнения:

+ добавлен редактор словаря

+ сделан импорт и экспорт словаря

+ улучшен выбор синонимов

+ доработан пользовательский интерфейс

+ добавлена статистика по заменам

+ добавлены новые менюшки

+ добавлена возможность добавления синонимов слова без захода в словарь

+ файл пользовательского словаря создается автоматически и не удаляется при переустановке программы

Изначально пользовательский словарь пуст - он наполняется во время добавления (или импорта синонимов из системной базы), или с помощью импорта из текстового файла. Более подробно об этом написано в разделе ЧаВо сайта программы.

Пара слов об импорте словаря. Хоть программ и умеет импортировать словарь, но я не рекомендую вам делать это из-за того, что существующие файлы словарей содержат не слишком качественную базу синонимов. Впрочем, вы можете поэкспериментировать, чтобы понять, что составленная вами лично база синонимов будет намного качественней уже существующих. Кроме того, существующие базы содержат большое количество слов, которые вам никогда не пригодятся.

Загрузить последнюю версию можно с официального сайта программы (в подписи).

В дальнейшем в дополнение к инсталляторам я планирую делать файлы обновлений, содержащие только измененные исполняемые файлы. Таким образом вы сэкономите довольно много трафика и времени, требующегося для загрузки 20 мегабайт инсталляционного файла. Подобная практика будет доступна со следующей версии.

Буду рад любым советам и критике. Пожелания может оставлять как здесь, так и на моем блоге (адрес в подписи).

Pedronas:
Ищу сервис или программу для проверки больших списков доменов на тиц и пр

Если мне память не изменяет, то аллсаб это умеет делать.

Всего: 200