CиБи

Рейтинг

Регистрация

04.04.2011

"Детектор Плагиата" - качественное обнаружение плагиата

5 апреля 2011, 19:50

sparsis:
А помоемому подобных сервисов и программ, уже болше чем достаточно, и все равно если за это еще и платить деньги то тогда уже лучше использовать copyscape.com

copyscape.com - это коммерческий продукт, и основная его часть - платная. Если Вы попробуете использовать подобные "бесплатные" сервисы то вы увидите следующее:

а) их бесплатная демо версия - почти бесполезна (стремиться к нулю) и не годиться для потоковой обработки документов. Она - это затравка для платной версии.

б) в связи с централизованной системой они производят сброс нагрузки - убивая качество.

в) половина из этих сервисов - просто фиктивные.

г) их функционал и качество - это отдельный вопрос - проведите объективный тест, сделайте 20 сложных файлов и померяйте эффективность и всё станет на свои места.

CиБи добавил 05.04.2011 в 23:58

The WishMaster:
А что тут сложного? Это вопрос терминологии. Если я скопипащу текст и укажу автора, это не будет плагиат ;)

Сложность не в том что Вы УЖЕ знаете о Вами же подготовленном документе, а в том, чтобы узнать ТО ЖЕ об исследуемом документе когда Вы заранее о нём ничего не знаете. Сложность в том чтобы программа\сервис максимально точно поставила ЭТОТ диагноз ("копипаст\плагиат\не плагиат") сама, или предоставила максимально детальную информацию Вам для принятия окончательного решения.

Это не вопрос терминологии а вопрос реализации алгоритмов.

ИМХО у Вас очень упрощённый подход к вопросу - он оправдывает себя в очень конкретных случаях и не покрывает всего разнообразия которое встречается In the wild.

Образно - белое или чёрное. Но к сожалению существуют как градации серого, так и другие цвета радуги с той же гаммой оттенков.

"Детектор Плагиата" - качественное обнаружение плагиата

5 апреля 2011, 19:41

The WishMaster:
CиБи, плагиат - это умышленное присвоение авторства чужого произведения. А копипаст - это совершенно другое.

Эх... если б было всё так просто :-)))

"Детектор Плагиата" - качественное обнаружение плагиата

5 апреля 2011, 19:13

The WishMaster:
Опять путают копирование текста и плагиат?:)

Я не уверен или я правильно понимаю что именно вы имели ввиду, и для лучшего понимания ЧТО именно ищет детектор плагиата хотел бы поделиться следующим:

"копирование текста", "копипаста", "почти дубликаты (near duplicates)", "плагиат", "рирайт (rewrite)" - это разные термины которые обладают разной шириной и могут как пересекаются так и не соотноситься прямо, но их всех можно охарактеризовать 3 свойствами:

а) "кол-во общей идентичной информации" (shared identical information volume). ОИИ - это НЕ плагиат, ОИИ становиться плагиатом если "модальность намерений автора" (см. ниже) - негативна. И это не единственный вариант - например может иместь место как случайный автоплагиат так же как и неслучайный автоплагиат, и масса других вариантов.

б) "модальность намерений автора" (intentions modality)

- нейтральная

- негативная (злой умысел, на мереное сокрытие плагиата, защита от алгоритмов обнаружения плагиата)

- позитивная (добрый умысел (качественная оригинальная статья, реферат, курсовая и т.д.), наличие ссылок на источники)

в) "степень модификации текста" (text modification degree)

- нулевая

- средняя

- очень большая

Отдельно стоят методы модификации\обфускации текста (синонимизация, рирайт человеком, шафлинг слов\знаков\предложений\фраз, вставка символов другой кодировки, замена ЧР, вставка символов белого цвета - нарушение фингерпринта и т.д. и т.п.)

Например:

1. "Хорошая оригинальная статья":

а) % ОИИ = 0%.

б) позитивная, есть источники.

в) нулевая

2. "Копипаста с википедии":

а) % ОИИ = 90% (10% на изменённые заголовки и изменение форматирования).

б) нейтральна - автор знает что он информацию брал с вики (как часто бывает оставил линки копипастом в ворде), но для него факт копипасты роли не играет.

3. "Копипаста с википедии проданная в качестве оригинальной статьи веб мастеру с частичным рерайтом":

а) %ОИИ = 90% (10% на изменённые заголовки и изменение форматирования).

б) негативная (злой умысел, намеренное сокрытие плагиата с целью эмулирования качественной работы, защита от алгоритмов обнаружения плагиата поисковой системой).

в) средняя - 50% статьи обработано синонимизатором, изменён порядок абзацев, предложений, удалены все компрометирующие ссылки.

ДП съест и обработает следующее:

"дипломная работа на 60 страниц, масса прямых цитирований и веб источников, присутствует как плагиат так и автоплагиат, введение и выводы написаны оригинально, работа обработана "антиплагиатом" с целью скрыть таковой"

Разложит по полочкам и выдаст детальный отчёт сколько чего и где. Мало того АРВ позволит точно, в режиме реального времени найти и сравнить сколько именно отдельно взятый источник "привнёс" в анализируемый текст. Карты-графы распределения ОИИ прилагаются.

А Ваш Детектор так умеет? :-)

"Детектор Плагиата" - это достаточно точный инструмент который в состоянии определить все 3 свойства для проверяемого текста.

Основная задача Детектора Плагиата - это поиск, обнаружение кол-ва Общей Идентичной Информации, формирование графа источников по отношению к исследуемому документу, определение источников, отсеивание цитированных секций, и помощь пользователю в определении Модальности автора - чтобы можно было однозначно определить ЧТО ИМЕННО из себя текст представляет. (плагиат, оригинал, автоплагиат, смесь того и того, копипаста с модификациями и т.д.).

CиБи добавил 05.04.2011 в 23:16

El_book:
Последнее время много программ делают, но я доверяю одной - это адвенго.

Аргументируйте чем вызвано такое доверие - я как разработчик буду очень признателен!

p.s. Plagiarism Detector - вложено 5+ лет интенсивной работы и исследований, текущая версия ядра - 400 билдов позади.

Заранее спасибо!

"Детектор Плагиата" - качественное обнаружение плагиата

5 апреля 2011, 05:51

Kost:
Боюсь, что за такой "информативный" ответ можно получить штраф.
А если беседа продолжится в таком тоне, то первый пост будет считаться спамом.

Прошу простить меня за неполный ответ. Мои знания о АП ограничены старой версией АП.

Я предоставлю детальное сравнение обоих продуктов в течении 24 часов, после того как протестирую последнюю версию АП.

"Детектор Плагиата" - качественное обнаружение плагиата

5 апреля 2011, 05:46

netUfo:
А чем она лучше адвего плагиатус?

1. [детальное сравнение, отличия АП и ДП я предоставлю несколькими постами ниже].

2. Если память мне не изменяет, "адвего плагиатус" это в некоторой степени клон "Plagiarism Detector-a" :), с момента старта ДП я следил за появлением аналогов\клонов (и их функционалом) и АП был одним из них. Так как DP начал разрабатываться раньше - то его шлифовка как и функционал на порядок выше и видимо повлияли на развитие АП.

У АП и ДП имеют разные векторы развития - АП изначально позиционировался для СЕО а ДП для академического сипользования. АП есть попбочным (дополнительным) продуктом в проекте Адвего.ру, а Plagiarism Detector - разрабатывался как основная самоцель.

Процитирую одного "клиента":

"На сегодняшний день, ничего подобного нет, и по качеству и по функциональности.

Примеры отчетов которые дает программа вы сможете посмотреть во вложении."

p.s. я бы этому клиенту ручки-то поотрывал 😂

"На вкус и цвет фломастеры разные"

Переиграть и победить: как анализировать конкурентов для продвижения сайта

Google: E-E-A-T не является фактором ранжирования

CиБи