Необходимо сохранить только уникальный текст.

M1
На сайте с 01.11.2011
Offline
29
666

Вообщем суть в следующем. Есть журнал в pdf, я с помощью finereader я конвертирую этот журнал в редактированный документ, любой txt либо doc ... Проверяю на уникальность, некоторые статьи уникальные получаются, некоторые нет. Вот мне необходимо каким то образом автоматизированно вытащить уникальные статьи, точнее уникальность которых выше 90% скажем так. Такие программы как etxt антиплагиатор или advego антиплагиатор .. выделяют неуникальный текст другим цветом.

Вообщем вопрос в следующем:

1) как вытащить уникальные статьи?

2) Или как программно разбить pdf журнал на разные статьи?

Sandal
На сайте с 30.11.2010
Offline
29
#1
modeler11:
Такие программы как etxt антиплагиатор или advego антиплагиатор .. выделяют неуникальный текст другим цветом.

Попросите API у разработчиков этих программ или пишите свою.

Женский форум Харькова (http://woman.kh.ua)
M1
На сайте с 01.11.2011
Offline
29
#2

Спасибо за дельный совет!

The WishMaster
На сайте с 29.09.2005
Offline
2543
#3
modeler11:
Есть журнал в pdf

У тебя, конечно же, есть авторские права на коммерческое использование материалов журнала?

Пешу текста дешыго! Тематики - туризм, СЕО, творчество, кулинария, шизотерика :)
M1
На сайте с 01.11.2011
Offline
29
#4
У тебя, конечно же, есть авторские права на коммерческое использование материалов журнала?

Ну конечно, хочу собрать статистику краж ценной информации. Журнал большой, поэтому и нужна автоматизация

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий