теперь Rewriter. Для тех, кто уже скачал - вышла версия 1.0.1 - исправлены найденные баги
WSGURerayter - отбор самых уникальных статей
WSGURerayter предназначен для анализа массы текстов и отбора из них с самым уникальным содержимым.
Для работы с программой необходимо:
• Поместить в каталог с исходными статьями файлы с расширением .html. В каждом файле должна находиться одна статья.
• Указать каталог, куда будут перемещены отобранные статьи
• В поле «Отобрать из общей массы» ввести количество отбираемых статей с самым уникальным содержимым.
• Поле «использовать максимум слов» необходимо заполнить целым положительным числом не менее 10 с учетом стоп слов.
• Качественный, но более медленный анализ – время анализа увеличивается примерно в 2 раза, но используются более точные алгоритмы.
• Файл stopwords.txt содержит стоп слова, которые не учитываются при анализе.
Для ускорения работы алгоритмов, программа работает только с русскими словами. По индивидуальному запросу возможно подключение и английских слов.
10 статей по 4 кб. анализирует за 2 секунды.
100 статей по 4 кб. анализирует за 3 мин 39 секунды.
1000 статей по 25 слов за 38 мин
Скачать демоверсию можно тут http://www.wsgu.ru/faylyi/files.download-2.html
купить тут http://www.snips.ru/tovar2021.html
пользуюсь рбк 3 года: было всякое (почта не работала, сайты постоянно зависали, не грузились). Сейчас вот тормозят. Но в общем впечатления на твердую 4.
1. 25
2. Например домами -> дом, идем-> идти
3. Все оказалось проблематичнее. Чтобы выявить из группы текстов самые уникальные надо сравнить каждую статью относительно другой. Если 3 статьи, то определяем схожесть второй и третей относительно первой; 1 и 3 относительно второй; 1 и 2 относительно третьей. Потом нужно для каждой статьи найти средний показатель уникальности. Сейчас тестирую скорость и оптимизирую алгоритмы. Результаты скоро сообщу. Хотелось бы услышать сколько времени бы (по максимуму) согласны уделять, чтобы выбрать из 1000 например 10 самых уникальных статей?
Нормализация - это нахождение начальной формы слова. По поводу "собирает сам статьи" - уточните, пожайлуста. расставить {end} автоматом можно макросом в ворде например, или чем вы там статьи генератором статей
Как это я упустил такой важный момент? Хотя на прошлой неделе добавлял сайт в каталог - не заметил плохой новости про изменение стоимости регистрации в каталоге. ******* - тут идут русские слова.
Есть отличии:
1. Сравниваются сразу множество текстов
2. Используется нормализация.
3. Используется расстояние Левенштейна
4. Программа позволяет выбрать самые уникальные статьи из массы текстов
5. Нет рекламы у платной версии
У меня есть сервис и для попарного сравнения
вышла новая версия 3.1.0
Новое:
1. Теперь вместо сходства используется уникальность
2.Теперь после сравнения статей между собой на уникальность, для каждой статьи расчитывается среднее значение уникальности. Затем эти статьи выводятся в порядке убывания уникальности. (количество вывода и критический порог уникальности можно регулировать).
Это можно использовать для отбора наиболее уникальных статей из массы
Приглашаю потестировать новый подход. Жду Ваших замечаний
может мой сервис поможет?
+1. Администратора пора на пенсию отправлять