Плагиат не пройдет! Или что могут современные поисковые технологии.

L
На сайте с 02.05.2004
Offline
35
4527

----------------------------------------

Компания «СофтИнформ» объявляет о выходе нового продукта, основанного на базе своих поисковых технологий. Система PlagiatInform – является профессиональным инструментом для определения наличия факта плагиата в любом документе.

Проблема плагиата очень остро стоит во всех учебных заведениях. Одни и те же работы сдаются по несколько раз. Причём как рефераты, курсовые работы и доклады, так и серьёзные научные работы. Система PlagiatInform успешно решает проблему плагиата, благодаря использованию уникальной технологии поиска документов похожих по содержанию.

PlagiatInform сначала проверяет сдаваемую работу, целиком сравнивая её с уже имеющимися в базе рефератами и курсовыми. Если процент плагиата в сдаваемой работе невысок, то работа разбивается на абзацы и уже сравнивается с базой работ, также разбитых на абзацы. Это не только позволяет точнее определить заимствования из чужих работ, но и установить из каких именно работ были взяты абзацы текста, и насколько они были изменены

----------------------------

Посмотреть демо ролик можно здесь http://www.searchinform.ru/search-download/demo-movies/PlagiatInformRus.exe

Именно благодаря уникальной технологии поиска документов походих по содержанию система находит плагиат в тнех случаях когда другие системы пассуют.

На сегодняшний день система уже внедрена в Казахстане и в близжайшее время планируется несколько внедрений в России и Украине.

Кто имеет плотные контакты с вузами -- пишите -- есть о чем поговорить

leo собака softinform точка com

Leo www.searchinform.ru (www.searchinform.ru)
OZE
На сайте с 21.05.2006
Offline
152
OZE
#1

а как вы определяете что два куска текста одинаковые (простое сравнение, шинглы или что-то еще)?

и как быть с большими объемами информации?

L
На сайте с 02.05.2004
Offline
35
#2
OZE:
а как вы определяете что два куска текста одинаковые (простое сравнение, шинглы или что-то еще)?
и как быть с большими объемами информации?

Сравнение по md5 или шинглы отслеживают только если данные практически одинаковы. То есть по md5 например можно отследить только если 100% одинаково.

У нас же собственные технологии поиска документов похожих по содержанию которые запатентованы и ничего общего с шинглами не имеют и поэтому мы отследим даже такое (приведу пример маленького абзаца)

------- оригинал ------------------

Образование международных экономических объединений содействует развитию производственных отношений между этими странами, однако, это создает препятствия для экономических отношений со странами из других группировок, что ведет к концентрации торговых потоков внутри экономических объединений.

--- исправленная копия -----

Развитию производственных отношений между этими странами содействует образование международных экономических объединений. Это создает препятствия для экономических отношений со странами из других группировок, что несомненно ведет к концентрации торговых потоков внутри экономических объединений.

---------------------------------------------

Как видим мы переписали немного, но по сути это все равно плагиат. Так вот в нашей системе на оригинал говорит что похожесть = 100% а во втором случае что 78% -- что говорит о том что реально это всеже плагиат.

При желании можно все посмотреть в действии зарегитрировавшись вот здесь http://www.searchinform.ru/main/full-text-search-products-searchinform-plagiatinform-buy.html

Далее с Вами свяжется менеджер и все покажет и расскажет и если надо предоставит триальную версию для установки у вас.

OZE
На сайте с 21.05.2006
Offline
152
OZE
#3

т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?

а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?

[Удален]
#4

Leom, я, конечно, извиняюсь, но такую байду легко поднять теми же шинглами, корректируя их размер. Ничего интересного.

L
На сайте с 02.05.2004
Offline
35
#5
Miha Kuzmin (KMY):
Leom, я, конечно, извиняюсь, но такую байду легко поднять теми же шинглами, корректируя их размер. Ничего интересного.

Давайте например на $2000 поспорим (сумма то не фантастика) что Вы не сделаете это на шинглах.

Тестировать очень просто берем ряд тестов как с Вашей так и с нашей стороны и прогоняем через обе системы (к примеру по 10-20) тестов.

И по результатам того что и как сработало смотрим.

Слабо? Сумму спора кстати можно и поднять если Вы готовы :)

[Удален]
#6

Leom, я уже года три не программирую. Но если вы не понимаете, что урезав шингл до трех слов, в данном примере будет 60-80% совпадений, то сочувствую.

L
На сайте с 02.05.2004
Offline
35
#7
Miha Kuzmin (KMY):
Leom, я уже года три не программирую. Но если вы не понимаете, что урезав шингл до трех слов, в данном примере будет 60-80% совпадений, то сочувствую.

Я Вам также. Я лично тоже не програмирую уже давно -- для этого у меня хватает программистов.

Если на Ваш взгляд так легко сделать, так давайте

- увеличим сумму спора например до 10К

- вы наймете программиста и он сделает по вашему алгоритму на шинглах

Слабо?

Если уверены на 100% то вы на этом сможете заработать, а если не отвечаете сами за свои слова, то смысла с вами спорить нет

Спорим?

OZE
На сайте с 21.05.2006
Offline
152
OZE
#8
Leom:
Спорим?

вы лучше на мой вопрос ответьте

[Удален]
#9

Leom, вы малолетний дурачок? По стилю видно, слабо, не слабо. Попробуйте себе в пятую точку бутылку вставить из-под шампанского, слабо?

p.s. ну что за идиоты пошли...

L
На сайте с 02.05.2004
Offline
35
#10
OZE:
т.е. по сути получается, что у вас производится морфологический и синтаксический (а возможно и семантический) разбор текста?
а как быть с техническими текстами, которые изобилуют терминами и сокращениями, и иногда в них встречаются формулы?

Отвечаю. Сорри не заметил в вопросах одного мудозвона который не отвечает за свои слова (Кузьмин) и в ответ хамит -- Ваш вопрос :)

Морфология да есть. Семантики нет -- мы языконезависимая технология где все что связано с языком монтируемо. В том что касается технических терминов с сокращениями и т.д. проблем нет -- все будет работать замечательно. Ну а формулы и например графики (синусоиды там всякие и т.д.) мы естественно игнорируем.

То есть если документ состоит просто из одних формул без текста, тогда мы не будем работать. Но в реальной жизни всеже даже в очень техническом тексте формул вряд ли будет более 20% -- в этом случае все будет хорошо.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий