WSGURerayter - бесплатная прога для пакетного сравнения статей на уникальность

WU
На сайте с 07.10.2007
Offline
173
613

Пользуйтесь на здоровье. Скачать. Спасибо всем, кто в свое время купил ее у меня и этим самым отблагодарил мою работу.

В программе есть некоторые минусы, но дорабатывать на данный момент нет времени:

1. Более 1000 статей анализировать не рекомендую.

2. Когда идет анализ прога как-будто зависает (но работает) - нет разделения на потоки

3. Работает только с русскими текстами

Программа использует шинглы (быстрый анализ)

и

Медленный анализ (шинглы+ сходства текстов на основе расстояния Левенштейна) - поэтому более медленный. Расстояние Левенштейна - более верный алгоритм определения схожести (различия) чем шинглы.

Программа предназначена для анализа массы текстов и отбора из них с самым уникальным содержимым.

Для работы с программой необходимо:

Поместить в каталог с исходными статьями файлы с расширением .html. В каждом файле должна находиться одна статья.

Указать каталог, куда будут перемещены отобранные статьи

В поле «Отобрать из общей массы» ввести количество отбираемых статей с самым уникальным содержимым.

Поле «использовать максимум слов» необходимо заполнить целым положительным числом не менее 10 с учетом стоп слов.

Качественный, но более медленный анализ – время анализа увеличивается примерно в 2 раза, но используются более точные алгоритмы.

Файл stopwords.txt содержит стоп слова, которые не учитываются при анализе.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий