Плагиат не пройдет! Или что могут современные поисковые технологии.

Disell
На сайте с 05.06.2006
Offline
253
#11

Ща начнется!!! :)

Лучшие вакансии ( http://hh.ru ) РУнета. Построй свою карьеру ( http://career.ru )
[Удален]
#12

Не начнется, уже все закончилось. Берем шинглы по 3 слова, с разбиением длинных пассажей, получаем:

1. Образование международных экономических объединений содействует развитию производственных отношений между этими странами

Образование международных экономических *

международных экономических объединений *

экономических объединений содействует

объединений содействует развитию

содействует развитию производственных

развитию производственных отношений *

производственных отношений между *

отношений между этими *

между этими странами *

2. Развитию производственных отношений между этими странами содействует образование международных экономических объединений

Развитию производственных отношений *

производственных отношений между *

отношений между этими *

между этими странами *

этими странами содействует

странами содействует образование

содействует образование международных

образование международных экономических *

международных экономических объединений *

Итог - три неодинаковых пассажа из 9 (звездочкой показаны одинаковые) - короче легко реализуемо. Где мои 10 штук и бутылка в чьей-то жопе?

N
На сайте с 18.05.2003
Offline
100
#13

Я тоже не понял, почему это не получится на шинглах:).

Вот если бы прога ТС сказала, что второй абзац на 90-97% идентичен первому, тогда чистыми шингами не обойтись.

Хотя... Конечно встает вопрос о скорости обработки и на каких массивах данных. Но пока из того, что написано, либо ТС не представляет имеющихся алгоритмов, либо пытается развести лохов, либо не умеет грамотно представить хороший продукт.

OZE
На сайте с 21.05.2006
Offline
152
OZE
#14
Leom:
Морфология да есть. Семантики нет -- мы языконезависимая технология где все что связано с языком монтируемо. В том что касается технических терминов с сокращениями и т.д. проблем нет -- все будет работать замечательно. Ну а формулы и например графики (синусоиды там всякие и т.д.) мы естественно игнорируем.

хорошо, семантики нет, а синтаксис?

как вы обрабатываете синонимы и толкования слова (фраз), замену сложных предлогов и вводных слов (что-то вроде: не смотря на, в виду и т.д.)?

Zikam.RU
На сайте с 15.03.2006
Offline
260
#15

Что-то ТС пропал. 10 штук ищет, бутылку или...точку ввода? 😂

полиуретановые формы для литья гипса, бетона и чего угодно (https://vk.com/zikam) декоративный камень из гибкого бетона (https://vk.com/elasticstone)
OZE
На сайте с 21.05.2006
Offline
152
OZE
#16
Newm:
Хотя... Конечно встает вопрос о скорости обработки и на каких массивах данных. Но пока из того, что написано, либо ТС не представляет имеющихся алгоритмов, либо пытается развести лохов, либо не умеет грамотно представить хороший продукт.

да, ответ на вопрос по скорости (задавал выше) не получен.

ЗЫ: дык это ж маркетинг :) , можно быть программером и написать супер-пупер программу, но не уметь ее продавать, это уже другая работа других людей.

ЗЫЫ: 2ТС: пригласите программера в форум, пообщаемся

vitali_y
На сайте с 23.05.2007
Offline
33
#17

Готов реализовать - ту же функциональность. Цена - гарантированно ниже чем Софтинформ - обращайтесь. Впринципе это уже сделано - смотри www.stopka.us - нужно лишь реализовать gui удобный. :)

L
На сайте с 02.05.2004
Offline
35
#18
Newm:

Я тоже не понял, почему это не получится на шинглах:).
Вот если бы прога ТС сказала, что второй абзац на 90-97% идентичен первому, тогда чистыми шингами не обойтись.
.

Потому как шинглы ну совсем не учитывают порядка слов в том же куске и ну очень чувствительны к вставке новых слов и смене мест слов.

Привожу пример

Слово код

Образования 1

международных 2

экономических 3

отношений 4

между 5

разными 6

странами 7

культурных 8

Оригинал:

образования международных экономических отношений между разными странами === (1,2,3,4, 5,6,7)

Измененный

Образование международных культурных и экономических отношений между странами== (1, 2,8 ,3 4,5,7)

Как видим всего то одно слово вставлено в предложение, а одно убрали а на самом деле это плагиат.

Тем разбиваем на шинглы по 3 слова как тут приводил некто не отвечающий за свои слова и хамящий (кузьмин)

Итак разбиваем обе части и оригинал и измененное на шинглы и создаем талицу кодов шинглов :

шингл ! код шингла

1,2,3 1

2,3,4 2

3,4,5 3

4,5,6 4

5,6,7 5

1,2,8 6

2,8,3 7

8,3,4 8

4,5,7 9

Теперь составляем фразы уже из шинглов :

Оригинал = Ш1, Ш2, Ш3, Ш4, Ш5

Измененный = Ш6, Ш7, Ш8, Ш3, Ш9

И что мы видим что из 5 шинглов похож только 1 -- значит не плагиат.

Теперь для чистоты эксперимента создаю в SearchInform индекс где всего 2 текстовых документа

- tepmplate.txt (оригинал )

- new.txt (измененный)

Запускаю индексаци. и у нас плказывает что то около 50% .

Шинглы бы показали 20%. Причем они бы показали 20% и там где похожести вообще нет. Приведу пример

Оригинал: Война между разными странами ведет к упадку экономики и готовит почву для диктатуры . (предлоги не учитываю)

Новый : Расстояние между разными странами часто влияет на близость языка их народов.

Получаем из 7 шинглов измененного один совпадает с оригиналом. Итого типа = 15% похожести. Хотя тут и рядом ничего похождего нет

Теперь смотрим у нас. Показывает что на новый template похож новый измененный всего на 10%.

Эксперимент данный могут с нашей системой провести все желающие -- откачав триальный SearchInform Desktop --- не надо даже плагиатинформ рнегить.....

Newm:

Хотя... Конечно встает вопрос о скорости обработки и на каких массивах данных. Но пока из того, что написано, либо ТС не представляет имеющихся алгоритмов, либо пытается развести лохов, либо не умеет грамотно представить хороший продукт.

Про скорость я вообще молчу :)

Индексация с шинглами будет ну очень медленной да и поиск потом тоже будет крайне неслабо тянуть времени, поэтому даже если бы шинглы давали хороший результат то применять их на практике в большиъ объемах нельзя просто. :)

Leo www.searchinform.ru (www.searchinform.ru)
L
На сайте с 02.05.2004
Offline
35
#19

P.S.

Почему шинглы работают намного хуже и медленней я ответил в предыдущем своем сообщении. Далее в связи с отсутствием времени в теоретические споры вступать вряд ли буду.

Если кто то готов продемонстрировать готовый продукт а не голые рассуждения, который например перемелет 200--300К рефератов и будет находить плагиат, то посмотрю с огромным удовольствием -- конкуренция стимул развиваться :)

А теория мне не интересна -- я практик.

Если же кого то интересует практическое использование наших технологий или какое то сотрудничество то пишите на leo собака softinform точка com

[Удален]
#20

Кстати, про неотвечающих за слова. Так что с тем примером? Я жду фотки с бутылкой из одного места и перевода денег (в принципе устроит безнал). А пока тут не до теоретических споров, тут моська, которая сначала кричит "слабо-слабо?", а затем тихо сливает.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий