Night

Night
Рейтинг
53
Регистрация
17.12.2006
Должность
CTO, Software Engineer
Интересы
AWS, Azure, Cloud services

Выбирается не 8 шинглов, а шингл длины 8.

В сравнении участвуют все шинглы статей, более того, предварительно статья псевдолемматизируется - отбрасываются последние буквы слов (замена "мама" на "маму" не изменит текст в плане уникальности) и слова, длина которых меньше 4 символов. Это позволяет получать более уникальные для ПС статьи при той же цифирьке в поле "процент сходства" в результатах генерации.

А шингл длины именно 8 используют большинство размножателей на форуме

Снова свободен для Ваших заказов

Как синонимайзер работает с омонимией?

Скину лучше в паблик

(теги <br> расставлял по просьбе заказчика)

http://terrnight.ru/articles.rar

Night добавил 23.07.2009 в 20:38

Освободился, возьму еще заказы

tolika, в общем да, думаю, релиз будет крутым.

Решая проблему с преждевременным прекращением генерации я пришел к выводу, что придется переписать класс генерации статей. Переписал - удивился. Надеюсь понравится и вам. Также в 60-70 раз ускорил сравнение методом шинглов.

учитываются ли при подсчете шинглов и % уникальности "стоп"-слова, увидеть их список и получить возможность редактирования этого списка (начальный вариант списка стоп-слов можно посмотреть на "ксапе").

При включенной лемматизации отбрасываются все слова длиной меньше четырех букв. При выключенной стоп-слова берутся из списка -он небольшой и явно неполный(в основном предлоги и частицы). Над этим поработаю, пока рекомендую включать псевдолемматизацию.

В пятницу отправлю потестить новую версию, включающую секретные требования source и abort.

Хм, эти ссылки у меня работают

/ru/forum/comment/5116716

В прилагаемых к проге мануалах в панели "Настройка генерации статей" есть поле для выбора
типа разделителя статей в выходном файле. В последней версии этого поля нет, видимо выбран некий один - КАКОЙ ?

Выбор разделителя статей происходит при сохранении сгенерированных текстов(Результат/Пакетное сравнение -> Сохранить статьи)

И еще, нет информации по обработке вложенных вариантов.

В программе поддерживается вложенность любого уровня. Пример гляньте в тестовом проекте, так будет нагляднее, чем если приводить его здесь.

Ерунда какая-то!

Exchanger.ru предлагает 2300 WMB за 1 WMZ при курсе нацбанка 2850р за доллар

tolika, приступаю...

alekzey, разными словарями текст обработать можно, новые синонимы будут добавляться к уже найденным. А вот объединить словари нельзя.

Всего: 295