copyscape.com - это коммерческий продукт, и основная его часть - платная. Если Вы попробуете использовать подобные "бесплатные" сервисы то вы увидите следующее:
а) их бесплатная демо версия - почти бесполезна (стремиться к нулю) и не годиться для потоковой обработки документов. Она - это затравка для платной версии.
б) в связи с централизованной системой они производят сброс нагрузки - убивая качество.
в) половина из этих сервисов - просто фиктивные.
г) их функционал и качество - это отдельный вопрос - проведите объективный тест, сделайте 20 сложных файлов и померяйте эффективность и всё станет на свои места.
CиБи добавил 05.04.2011 в 23:58
Сложность не в том что Вы УЖЕ знаете о Вами же подготовленном документе, а в том, чтобы узнать ТО ЖЕ об исследуемом документе когда Вы заранее о нём ничего не знаете. Сложность в том чтобы программа\сервис максимально точно поставила ЭТОТ диагноз ("копипаст\плагиат\не плагиат") сама, или предоставила максимально детальную информацию Вам для принятия окончательного решения.
Это не вопрос терминологии а вопрос реализации алгоритмов.
ИМХО у Вас очень упрощённый подход к вопросу - он оправдывает себя в очень конкретных случаях и не покрывает всего разнообразия которое встречается In the wild.
Образно - белое или чёрное. Но к сожалению существуют как градации серого, так и другие цвета радуги с той же гаммой оттенков.
Эх... если б было всё так просто :-)))
Я не уверен или я правильно понимаю что именно вы имели ввиду, и для лучшего понимания ЧТО именно ищет детектор плагиата хотел бы поделиться следующим:
"копирование текста", "копипаста", "почти дубликаты (near duplicates)", "плагиат", "рирайт (rewrite)" - это разные термины которые обладают разной шириной и могут как пересекаются так и не соотноситься прямо, но их всех можно охарактеризовать 3 свойствами:
а) "кол-во общей идентичной информации" (shared identical information volume). ОИИ - это НЕ плагиат, ОИИ становиться плагиатом если "модальность намерений автора" (см. ниже) - негативна. И это не единственный вариант - например может иместь место как случайный автоплагиат так же как и неслучайный автоплагиат, и масса других вариантов.
б) "модальность намерений автора" (intentions modality)
- нейтральная
- негативная (злой умысел, на мереное сокрытие плагиата, защита от алгоритмов обнаружения плагиата)
- позитивная (добрый умысел (качественная оригинальная статья, реферат, курсовая и т.д.), наличие ссылок на источники)
в) "степень модификации текста" (text modification degree)
- нулевая
- средняя
- очень большая
Отдельно стоят методы модификации\обфускации текста (синонимизация, рирайт человеком, шафлинг слов\знаков\предложений\фраз, вставка символов другой кодировки, замена ЧР, вставка символов белого цвета - нарушение фингерпринта и т.д. и т.п.)
Например:
1. "Хорошая оригинальная статья":
а) % ОИИ = 0%.
б) позитивная, есть источники.
в) нулевая
2. "Копипаста с википедии":
а) % ОИИ = 90% (10% на изменённые заголовки и изменение форматирования).
б) нейтральна - автор знает что он информацию брал с вики (как часто бывает оставил линки копипастом в ворде), но для него факт копипасты роли не играет.
3. "Копипаста с википедии проданная в качестве оригинальной статьи веб мастеру с частичным рерайтом":
а) %ОИИ = 90% (10% на изменённые заголовки и изменение форматирования).
б) негативная (злой умысел, намеренное сокрытие плагиата с целью эмулирования качественной работы, защита от алгоритмов обнаружения плагиата поисковой системой).
в) средняя - 50% статьи обработано синонимизатором, изменён порядок абзацев, предложений, удалены все компрометирующие ссылки.
ДП съест и обработает следующее:
"дипломная работа на 60 страниц, масса прямых цитирований и веб источников, присутствует как плагиат так и автоплагиат, введение и выводы написаны оригинально, работа обработана "антиплагиатом" с целью скрыть таковой"
Разложит по полочкам и выдаст детальный отчёт сколько чего и где. Мало того АРВ позволит точно, в режиме реального времени найти и сравнить сколько именно отдельно взятый источник "привнёс" в анализируемый текст. Карты-графы распределения ОИИ прилагаются.
А Ваш Детектор так умеет? :-)
"Детектор Плагиата" - это достаточно точный инструмент который в состоянии определить все 3 свойства для проверяемого текста.
Основная задача Детектора Плагиата - это поиск, обнаружение кол-ва Общей Идентичной Информации, формирование графа источников по отношению к исследуемому документу, определение источников, отсеивание цитированных секций, и помощь пользователю в определении Модальности автора - чтобы можно было однозначно определить ЧТО ИМЕННО из себя текст представляет. (плагиат, оригинал, автоплагиат, смесь того и того, копипаста с модификациями и т.д.).
CиБи добавил 05.04.2011 в 23:16
Аргументируйте чем вызвано такое доверие - я как разработчик буду очень признателен!
p.s. Plagiarism Detector - вложено 5+ лет интенсивной работы и исследований, текущая версия ядра - 400 билдов позади.
--
Заранее спасибо!
Прошу простить меня за неполный ответ. Мои знания о АП ограничены старой версией АП.
Я предоставлю детальное сравнение обоих продуктов в течении 24 часов, после того как протестирую последнюю версию АП.
1. [детальное сравнение, отличия АП и ДП я предоставлю несколькими постами ниже].
2. Если память мне не изменяет, "адвего плагиатус" это в некоторой степени клон "Plagiarism Detector-a" :), с момента старта ДП я следил за появлением аналогов\клонов (и их функционалом) и АП был одним из них. Так как DP начал разрабатываться раньше - то его шлифовка как и функционал на порядок выше и видимо повлияли на развитие АП.
У АП и ДП имеют разные векторы развития - АП изначально позиционировался для СЕО а ДП для академического сипользования. АП есть попбочным (дополнительным) продуктом в проекте Адвего.ру, а Plagiarism Detector - разрабатывался как основная самоцель.
Процитирую одного "клиента":
"На сегодняшний день, ничего подобного нет, и по качеству и по функциональности.
Примеры отчетов которые дает программа вы сможете посмотреть во вложении."
p.s. я бы этому клиенту ручки-то поотрывал 😂
"На вкус и цвет фломастеры разные"