Уникализатор

12
S
На сайте с 13.03.2009
Offline
49
3076

Прощу прощения - вероятно не в том разделе создал тему. Сабж, походу, нуно сюда. Прошу модераторов перенести.

/ru/forum/375948

starki добавил 14.07.2009 в 10:15

OnLine-сервис уникализатора.

Ссылка: http://ulyka.ru

Принцип работы уникализатора основан на замене выбранных слов или фраз на введенные вручную или выбранные из списка синонимы.

Алгоритм действий простой:

  • В текстовую форму в самом верху взамен той небольшой инструкции, что там сейчас находится помещаете свой текст в формате html. Нажимаете ниже формы кнопку "отправить" или комбинацию клавиш "Ctrl - Enter". После этого форма свернется, а введенный текст отобразится с учетом вашей html-разметки для дальнейшей работы.
  • Выбираете в тексте слова или фразы, которые хотели бы заменить синонимами или которые можно исключить из текста без потери смысла. Выделяете их поочередно мышкой. После выделения каждой фразы открывается окно с предложением ввести или выбрать синоним для выделенного текста. После ввода синонима вручную нужно нажать Enter или кнопку "+". Синоним добавится в список и сохранится в базе. Комбинация Ctrl-Enter кроме этого еще закроет окно фразы. Так же окно фразы можно закрыть кнопкой Esc. Все введенные вручную синонимы сохраняются в базе для дальнейшего использования в других текстах. Если повторно в другом тексте или другом месте одного и того же текста выбрать ту же фразу, то список синонимов повторно набирать уже не придется. По мере работы над текстом рассчитывается и в правой верхней части экрана отображается статистика работы. Все фразы и синонимы синхронно сохраняются в исходном тексте вашей статьи, в текстовой форме в верхней части страницы. Фраза и синонимы к ней обрамляются квадратными скобками и разделяются между собой символом вертикальной черты "|". Соответственно, при желании вы можете сохранить этот текст для того чтобы вернуться к нему в дальнейшем не теряя наработки. Так же можно вносить изменения в исходный текст в процессе работы над статьей. Для сохранения изменений достаточно нажать кнопку "отправить" (Ctrl - Enter).
  • После завершения работы над синонимами в форме управления нужно указать количество копий статьи, которые вы хотите получить. Их не может быть больше значения количества комбинаций из статистики, а так же больше 100 штук. К сожалению на данный момент не смог реализовать эффективного алгоритма уникализации. Текущий алгоритм в основе своей использует генератор случайных чисел и последующий выбор наиболее отличающихся между собой текстов из большого массива. По этой причине он ресурсоёмок и пришлось ввести ограничение в 100 копий. Копии статей можно формировать в двух форматах - html и bb. Конвертация в bb происходит автоматически из html исходника. Копии могут располагаться в одном файле друг за другом или отдельными файлами. В этом случае название файлов состоит из двух частей - номера копии и количестве отличий с предыдущими файлами. Алгоритм формирования построен таким образом, что чем меньше номер копии, тем больше у них отличий между собой. Количество отличий указывается помимо названия файла еще и в служебной "шапке" текста. Кроме копий статей в формируемый архив помещается файл с исходным текстом source.txt В шапке этого файла помещается постоянная ссылка на текст. По этой ссылке в любой момент времени можно вернуться к работе над ним.

Пример статьи с nnm.ru: http://ulyka.ru/index.php?link=5451345bd04096371566a0e19f3c94c7

Сервис отлаживался на браузерах:

  • Internet Explorer 7,8
  • Opera 9.64
  • FireFox 3.0.11
  • Chrome 2.0.172.33
P2
На сайте с 14.07.2009
Offline
6
#1

А автоматом никак синонимы не проставляет?

S
На сайте с 13.03.2009
Offline
49
#2

Автоматом по фразе или автоматом по всему тексту?

Если по фразе, то практически так и есть. При выделении фрагмента шлется запрос к базе синонимов. Полученные синонимы отображаются списком в окне фразы. После этого нужно выбрать те, которые вас устраивают и пометить их галочками. Делать автоматом пометку всех полученных синонимов не стал. Не все из них могут оказаться подходящими по смыслу к тексту. Тем не менее сделал рассчет процента использования синонима по отношению к использованию фразы. Это может упростить принятие решения, а так же позволит в дальнейшем реализовать алгоритмы автоматического заполнения.

Конечно же это в том случае если синонимы уже есть в базе. Если их там нет, то синонимы вводятся вручную. Сейчас сервис только запущен и база практически пуста.

Что касается автоматического заполнения синонимами всего текста, то пока база синонимов маленькая об этом говорить рано. Такие алгоритмы есть, но без хорошей базы про них думать рано. Найти какую-то готовую хорошую базу синонимов с учетом всех форм слов у меня навскидку не получилось.

S
На сайте с 13.03.2009
Offline
49
#3

Доработки:

  • Добавлены 3 словаря общим объемом около 150 000 слов, 750 000 синонимов, 12 000 000 словоформ.
  • Включен механизм автозаполнения текста синонимами.
  • Возможность выбора одного или нескольких словарей одновременно.
  • Скролинг в окне выбора синонимов при количестве позиций больше 10.
  • Возможность выбора или отмены выбра всего списка синонимов одним нажатием.
  • Статистка выбранных синонимов для одной фразы.

Если требуется более качественная автоматическая синонимизация можно выбрать словарь SynMaster. Если требуется "богатство" выбора, то можно подключить словарь Monstro. В этом случае количество синонимов на одну фразу может доходить до 700 штук. Конечно же подходящих по смыслу в конкретном контексте будут не все из них, но всегда можно оперативно отобрать нормальные вручную.

png faq6.png
png syn.png
S
На сайте с 13.03.2009
Offline
49
#4

Доработки:

  • Добавлен словарь "Aprok" на 207 000 словоформ ()
  • Исправлен порядок сортировки синонимов для браузера Chrome
  • Изменен алгоритм рассчета размера и позиционирования окна с синонимами.
  • При добавлении вручную нового синонима, если он уже есть в базе, то добавляется в словарь сайта.
S
На сайте с 13.03.2009
Offline
49
#5

Доработки:

Добавлено выдвигающееся окно со статистикой плотности слов. Возможен пересчет плотности с учетом морфологии.

Тихо сам с собою... Либо сервис не востребован, либо его изначально нужно было делать платным и вытягивать отзывы за полцены. Тяжело дорабатывать, когда нет рекомендаций или сообщений об ошибках. Зато уже несколько раз за неделю пытались взломать. С такой "любовью" встречаюсь впервые. Походу, таки надо уже прекращать со свободным доступом.

jpg plt1.jpg
jpg plt2.jpg
[Удален]
#6

Поработал немного с сервисом. Глюков/ошибок не заметил. В целом, все удобно и интуитивно понятно.

По доработке:

1. было бы удобно когда добавляешь свой синоним то чтобы он после нажатия на + сразу "выбирался", а так приходится закрывать окошко с синонимами и потом снова его открывать чтоб поставить галочку...

2. предусмотреть чтоб пользователи могли помечать неверные синонимы или синонимы с ошибками, чтобы их потом модератор мог удалить/исправить

3. сделать приоритет словосочетаний при автозаполнении (сори если это уже сделано)

S
На сайте с 13.03.2009
Offline
49
#7

Ура! Здесь, оказывается, есть люди!

Nooooo:
1. было бы удобно когда добавляешь свой синоним то чтобы он после нажатия на + сразу "выбирался", а так приходится закрывать окошко с синонимами и потом снова его открывать чтоб поставить галочку...

Баг. Поправил. Так и задумано было.

Nooooo:
2. предусмотреть чтоб пользователи могли помечать неверные синонимы или синонимы с ошибками, чтобы их потом модератор мог удалить/исправить

Думал над этим. Пока остановился на том, что рассчитывается процент использования синонимов по отношению к первоначальной фразе. Чем выше процент, тем чаще используется. Соответственно сортировка в списке синонимов происходит по этому проценту. Малоиспользуемые и ошибочные синонимы отодвигаются вниз. Как их потом на полуавтомате удалить - стоит подумать. Возможно действительно сделать напротив каждого синонима кнопку с жалобой.

Nooooo:
3. сделать приоритет словосочетаний при автозаполнении (сори если это уже сделано)

Такая штука была задумана раньше чем подключение внешних словарей. Будем посмотреть как сервисом пользуются и рассчитываются проценты по синонимам. Если это заработает, то в окно "словари" добавлю поле или выпадающий список для выбора процента автозаполнения. Фактически все для этого уже реализовано. Вопрос проверки эффективности. Проверка эффективности вопрос времени и активности использования сервиса.

Неожиданно получило продолжение тема с попытками взлома. Один из товарищей работал без прокси. Отписал в абузу его провайдеру с выдержками из логов. Как оказалось у оного уже в наличии условный срок по схожим правонарушениям. Теперь провайдер слезно просит написать официальное заявление в милицию чтобы посадить супостата. Сижу, не знаю что делать.

[Удален]
#8

Приоритет словосочитаний (это я имел ввиду, когда текст сначала делится на словосочетания и к ним подбираются синонимы, а уже потом к тем словам которые остались, и чем длиннее словосочетание тем приоритетнее) это, на мой взгляд, дает больше "человечности" при замене. Ведь читаемость статьи это даже важнее уникальности. Просто к словосочетанию из 3-4 слов легче подобрать синоним-слово/синоним-фразу которые будут подходить без ручной правки в большинстве случаев.

D
На сайте с 28.07.2008
Offline
33
#9
-=Раптор=-:
Потрудился чуть-чуть начиная с обслуживанием. Глюков/ошибок никак не увидел. В общем, совершенно ловко ровно подсознательно понятно.
По доработке:
1. бы было комфортно как скоро прибавляешь частный синоним то с целью он потом нажатия для + одновременно "выбирался", однако беспричинно приходится крыть окно от синонимами также позже опять его откупоривать чтоб определить галочку...
2. предвидеть чтобы пользователи дерзали обозначать неуверенные синонимы разве синонимы из уклоненьями, дабы их позже модер был в силах удалить/исправить
3. сделать приоритет словосочетаний при автозаполнении (сори если это уже сделано)
Nooooo:
Поработал немного с сервисом. Глюков/ошибок не заметил. В целом, все удобно и интуитивно понятно.
По доработке:
1. было бы удобно когда добавляешь свой синоним то чтобы он после нажатия на + сразу "выбирался", а так приходится закрывать окошко с синонимами и потом снова его открывать чтоб поставить галочку...
2. предусмотреть чтоб пользователи могли помечать неверные синонимы или синонимы с ошибками, чтобы их потом модератор мог удалить/исправить
3. сделать приоритет словосочетаний при автозаполнении (сори если это уже сделано)

они что, клоны?

Установка,настройка CMS,модулей по смешной цене (/ru/forum/370764)|Телефоны,гаджеты (http://mablog.ru)
S
На сайте с 13.03.2009
Offline
49
#10
Nooooo:
Приоритет словосочитаний (это я имел ввиду, когда текст сначала делится на словосочетания и к ним подбираются синонимы, а уже потом к тем словам которые остались, и чем длиннее словосочетание тем приоритетнее) это, на мой взгляд, дает больше "человечности" при замене. Ведь читаемость статьи это даже важнее уникальности. Просто к словосочетанию из 3-4 слов легче подобрать синоним-слово/синоним-фразу которые будут подходить без ручной правки в большинстве случаев.

Речь про автозаполнение? Сейчас алгоритм следующий - текст делится на предложения. Берутся первые 10 слов предложения и ищется на них синоним. Если не находится - берутся первые 9 слов. Если не находится 8 слов и т.д. до одного. Если синоним найден, то исключается из предложения и берутся следующие после него 10 слов. Потом 9 и т.д. Таким макаром обрабатывается каждое предложение. В результате чем длиннее фраза, тем приоритетнее для нее синоним.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий