Программа для проверки уникальности текстов между собой.

novi4ek777
На сайте с 09.10.2007
Offline
59
#11
P.S. по поводу скорости: если текст очень большой, воспользуйтесь настройкой выборки шинглов - этот параметр очень влияет на скорость и при больших текстах не существенно влияет на результат.

Еще добавлю что процесс повышается если поставить галочку "заморозить", возле нижнего индекатора процесса обработки (он остановится, а основной, верхний, побежит значительно быстрей). Вот так вот.

IceCore
На сайте с 14.05.2009
Offline
17
#12

На данный момент тестируется второй релиз программы, который скорее всего будет запущен на следующей неделе.

Буду признателен за любые пожелания или дополнения, которые вы хотели бы видеть в программе.

Программа для пакетной проверки текстов на уникальность Text Analyzer (http://ice-core.net/products/work/textanalyzer.html) ICE Core Development (http://www.ice-core.net)
IceCore
На сайте с 14.05.2009
Offline
17
#13

Обновление программы до версии 1.0.2

Полный функционал, включая версию 1.0.2:

[Версия 1.0.1]

1. Исходные данные:

1.1. Сравнение текста с эталоном
1.2. Сравнение текстов в двух направлениях
1.3. Сравнение списка файлов с эталоном
1.4. Сравнение списка файлов в двух направлениях
1.5. Сравнение списка файлов с отбором по критерию уникальности

2. Настройка выборки шинглов

3. Учет фактора морфологии (функция Левенштейна)

4. Стемминг (процесс нахождения основы слова для заданного исходного слова)

5. Корректировка содержания:

5.1. Удаление русских символов
5.2. Удаление английских символов
5.3. Удаление цифр
5.4. Удаление знаков пунктуации

6. Копирование выбранных файлов из списка результатов обработки в указанную папку

[Версия 1.0.2]

1. Изменение размеров шингла (3-20)

2. Автоматическая корректировка текста:

2.1. Удаление стоп-слов
2.2. Удаление служебных символов
2.3. Процедурная обработка текста при помощи скриптов. Позволяет очистить текст
практически от всех лишних символов, включая теги
2.4. Очень гибкая настройка
2.5. Утилита для создания скриптов «Script Editor»

3. Сохраняемые профили настроек для выполнения сравнения в несколько кликов

4. Импорт форматов *.doc, *.rtf, *.htm, *.html, *.mht

5. Расширенный просмотр результатов:

5.1. Отображение всех шинглов текста
5.2. Отображение совпавших шинглов

6. Значительно ускорен алгоритм обработки

Тестовое сравнение: режим - сравнение в двух направлениях
количество файлов - 500
объем файлов - 2000-2500 символов
алгоритм - «Advanced»
произведено сравнений текстов - 249500
время работы - 70 секунд
сравнение производилось по всем шинглам текста

Получить демо-версию программы для ознакомления можно написав мне на почту: soft_icecore[at]mail.ru или скачать с депозита: http://depositfiles.com/files/luc1m8lty

Осталось 4 акционных лицензии со скидкой 50%

Любые вопросы и пожелания в асю или по почте.

novi4ek777
На сайте с 09.10.2007
Offline
59
#14

Спасибо за хорошее обновление, прога реально стала пулей работать.

Надеюсь будет еще быстрей=)

vtomas
На сайте с 19.03.2007
Offline
102
#15

IceCore, а сравнение из Яши и Гугла, планируете реализовать?

Хорошее стоит дорого, на плохое не стоит и тратиться. В поисках VPS захостился здесь (http://ipserver.su), а бэкапы храню здесь (http://billing.markovservers.com/backup/pl.php?65).
IceCore
На сайте с 14.05.2009
Offline
17
#16
vtomas:
IceCore, а сравнение из Яши и Гугла, планируете реализовать?

не совсем понял о чем идет речь... парсинг поисковиков?

vtomas
На сайте с 19.03.2007
Offline
102
#17
IceCore:
не совсем понял о чем идет речь... парсинг поисковиков

Именно это, поиск плагиата.

См. Praide, Advego Plagiatus :)

IceCore
На сайте с 14.05.2009
Offline
17
#18
vtomas:
Именно это, поиск плагиата.
См. Praide, Advego Plagiatus :)

Пробовал делать подобную штуку. Проблема с банами. Если ставить задержку, то времени понадобиться очень-очень много... вариант пробоя капчи рассматривал - не очень охота возиться... если подскажете как обойти бан - постараюсь прикрутить.

vtomas
На сайте с 19.03.2007
Offline
102
#19

Самый распространенный вариант - прокси, добавить импорт прокси из списка или использовать Tor :)

P.S. У меня на программах Praide, Advego Plagiatus ни разу капча не выскакивала, они то как то это дело обошли.

IceCore
На сайте с 14.05.2009
Offline
17
#20
vtomas:
Самый распространенный вариант - прокси, добавить импорт прокси из списка или использовать Tor :)

P.S. У меня на программах Praide, Advego Plagiatus ни разу капча не выскакивала, они то как то это дело обошли.

Прокси очень нестабильная штука и очень мало анонимных - проблемно с ними: проверять постоянно, искать и т.д. А они обошли наверное потому что знают лазейку и никому об этом не скажут, это точно :)

У меня есть чекер Google PageRank и там как раз есть формирование хитрого запроса, со всякими там контрольными суммами - эту штуку не банит хоть сутками крути:) А вот как на поисковик так сделать я не знаю... :(

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий