WSGU

Рейтинг
178
Регистрация
07.10.2007

теперь Rewriter. Для тех, кто уже скачал - вышла версия 1.0.1 - исправлены найденные баги

WSGURerayter - отбор самых уникальных статей

WSGURerayter предназначен для анализа массы текстов и отбора из них с самым уникальным содержимым.

Для работы с программой необходимо:

• Поместить в каталог с исходными статьями файлы с расширением .html. В каждом файле должна находиться одна статья.

• Указать каталог, куда будут перемещены отобранные статьи

• В поле «Отобрать из общей массы» ввести количество отбираемых статей с самым уникальным содержимым.

• Поле «использовать максимум слов» необходимо заполнить целым положительным числом не менее 10 с учетом стоп слов.

• Качественный, но более медленный анализ – время анализа увеличивается примерно в 2 раза, но используются более точные алгоритмы.

• Файл stopwords.txt содержит стоп слова, которые не учитываются при анализе.

Для ускорения работы алгоритмов, программа работает только с русскими словами. По индивидуальному запросу возможно подключение и английских слов.

10 статей по 4 кб. анализирует за 2 секунды.

100 статей по 4 кб. анализирует за 3 мин 39 секунды.

1000 статей по 25 слов за 38 мин

Скачать демоверсию можно тут http://www.wsgu.ru/faylyi/files.download-2.html

купить тут http://www.snips.ru/tovar2021.html

пользуюсь рбк 3 года: было всякое (почта не работала, сайты постоянно зависали, не грузились). Сейчас вот тормозят. Но в общем впечатления на твердую 4.

1. 25

2. Например домами -> дом, идем-> идти

3. Все оказалось проблематичнее. Чтобы выявить из группы текстов самые уникальные надо сравнить каждую статью относительно другой. Если 3 статьи, то определяем схожесть второй и третей относительно первой; 1 и 3 относительно второй; 1 и 2 относительно третьей. Потом нужно для каждой статьи найти средний показатель уникальности. Сейчас тестирую скорость и оптимизирую алгоритмы. Результаты скоро сообщу. Хотелось бы услышать сколько времени бы (по максимуму) согласны уделять, чтобы выбрать из 1000 например 10 самых уникальных статей?

Нормализация - это нахождение начальной формы слова. По поводу "собирает сам статьи" - уточните, пожайлуста. расставить {end} автоматом можно макросом в ворде например, или чем вы там статьи генератором статей

Как это я упустил такой важный момент? Хотя на прошлой неделе добавлял сайт в каталог - не заметил плохой новости про изменение стоимости регистрации в каталоге. ******* - тут идут русские слова.

Str256:
Тут продставлены 2-е программы для сравнения текстов. Чем ваша программа лучше их?

Есть отличии:

1. Сравниваются сразу множество текстов

2. Используется нормализация.

3. Используется расстояние Левенштейна

4. Программа позволяет выбрать самые уникальные статьи из массы текстов

5. Нет рекламы у платной версии

У меня есть сервис и для попарного сравнения

вышла новая версия 3.1.0

Новое:

1. Теперь вместо сходства используется уникальность

2.Теперь после сравнения статей между собой на уникальность, для каждой статьи расчитывается среднее значение уникальности. Затем эти статьи выводятся в порядке убывания уникальности. (количество вывода и критический порог уникальности можно регулировать).

Это можно использовать для отбора наиболее уникальных статей из массы

Приглашаю потестировать новый подход. Жду Ваших замечаний

Ukrainer:
это достаточно понятный троян

тут сайт никто не ломал
это webmaster сайта ЛОХ. А точнее тот у кого фтп доступы есть к сайту. Т

+1. Администратора пора на пенсию отправлять

Всего: 868