Выбирается не 8 шинглов, а шингл длины 8.
В сравнении участвуют все шинглы статей, более того, предварительно статья псевдолемматизируется - отбрасываются последние буквы слов (замена "мама" на "маму" не изменит текст в плане уникальности) и слова, длина которых меньше 4 символов. Это позволяет получать более уникальные для ПС статьи при той же цифирьке в поле "процент сходства" в результатах генерации.
А шингл длины именно 8 используют большинство размножателей на форуме
Снова свободен для Ваших заказов
Как синонимайзер работает с омонимией?
Скину лучше в паблик
(теги <br> расставлял по просьбе заказчика)
http://terrnight.ru/articles.rar
Night добавил 23.07.2009 в 20:38
Освободился, возьму еще заказы
tolika, в общем да, думаю, релиз будет крутым.
Решая проблему с преждевременным прекращением генерации я пришел к выводу, что придется переписать класс генерации статей. Переписал - удивился. Надеюсь понравится и вам. Также в 60-70 раз ускорил сравнение методом шинглов.
При включенной лемматизации отбрасываются все слова длиной меньше четырех букв. При выключенной стоп-слова берутся из списка -он небольшой и явно неполный(в основном предлоги и частицы). Над этим поработаю, пока рекомендую включать псевдолемматизацию.
В пятницу отправлю потестить новую версию, включающую секретные требования source и abort.
Хм, эти ссылки у меня работают
/ru/forum/comment/5116716
Выбор разделителя статей происходит при сохранении сгенерированных текстов(Результат/Пакетное сравнение -> Сохранить статьи)
В программе поддерживается вложенность любого уровня. Пример гляньте в тестовом проекте, так будет нагляднее, чем если приводить его здесь.
Ерунда какая-то!
Exchanger.ru предлагает 2300 WMB за 1 WMZ при курсе нацбанка 2850р за доллар
tolika, приступаю...
alekzey, разными словарями текст обработать можно, новые синонимы будут добавляться к уже найденным. А вот объединить словари нельзя.
Ссылки для скачивания
Night ArticleGen 2.4 (full version)
Night ArticleGen 2.4 (demo version)