Плагиат не пройдет! Или что могут современные поисковые технологии.

Leom · 2007-06-11T06:26:46.0000000Z

---------------------------------------- Компания «СофтИнформ» объявляет о выходе нового продукта, основанного на базе своих поисковых технологий. Система PlagiatInform является профессиональным инструментом для определения наличия факта плагиата в любом документе. Проблема плагиата очень остро стоит во всех учебных заведениях. Одни и те же работы сдаются по несколько раз. Причём как рефераты, курсовые работы и доклады, так и серьёзные научные работы. Система PlagiatInform успешно решает проблему плагиата, благодаря использованию уникальной технологии поиска документов похожих по содержанию. PlagiatInform сначала проверяет сдаваемую работу, целиком сравнивая её с уже имеющимися в базе рефератами и курсовыми. Если процент плагиата в сдаваемой работе невысок, то работа разбивается на абзацы и уже сравнивается с базой работ, также разбитых на абзацы. Это не только позволяет точнее определить заимствования из чужих работ, но и установить из каких именно работ были взяты абзацы текста, и насколько они были изменены ---------------------------- Посмотреть демо ролик можно здесь http://www.searchinform.ru/search-download/demo-movies/PlagiatInformRus.exe Именно благодаря уникальной технологии поиска документов походих по содержанию система находит плагиат в тнех случаях когда другие системы пассуют. На сегодняшний день система уже внедрена в Казахстане и в близжайшее время планируется несколько внедрений в России и Украине. Кто имеет плотные контакты с вузами -- пишите -- есть о чем поговорить leo собака softinform точка com

33

vitali_y

11 июня 2007, 16:25

#41

to Leom:

Телефон напишу - поговорить - мне тоже интересно.

Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb. Поэтому все что написано выше - подразумевает именно этот мой тест. В ближайшее время сделаю этот тест общедоступным. Конечно при большем объеме будут сложности - т.е. потенциально они могут возникнуть у меня уже при объеме порядка 10gb текста - что примерно будет соответствовать индексу в 2gb - тут уже сложность - поскольку у меня лишь 1 индексный файл в результате. На большие объемы я пока и не замахиваюсь - проблеммы с разростанием индекса - в принципе решаемы - наступит момент я их решу. Скорость индексирования при больших объемах у меня потенциально останется на том же уровне - рост количества документов тут не помеха. Есть у меня еще возможность ускорить индексирование - на данный момент я не ставлю себе такую задачу - быть тут первым. Ну и время поиска - будет сравнимо с чтением нужной индексной информации из файла индекса.

Поскольку даже самые фанатичные коллекционеры различных доков не собирают их больше 5 gb (сужу по себе) - тестирование на 100 gb для меня сейчас не приоритет. И соревноваться с вами тут я не собираюсь. А что возникнут при таких объемах тонкости - 100%. После того как реализую некоторые намеченные фичи - (у остальных подобное уже есть) - я сделаю это по своему - может кто посчитает что для него это то что нужно - можно будет объявить релиз. Сейчас это игрушка которой я что называется - "козыряю" - правда feedback пока небольшой - это нормально - даже хорошо.

Именно скорость индексирования searchinfo заставила меня искать пути как сделать мое индекирование сравнимым по скорости - в принципе на моем тесте ваша программа индексировала минут 5 у меня минут 6. Я тоже считаю скорость индексирования важным показателем - тут вам конечно респект.

To All:

Для любителей конкретных цифр - обещаю - напишу ревью - со сравнительным анализом - когда придет время - оринтироваться буду на 5 может 20 gb текста. Ну и старый тест на 700mb там будет. Повторю еще раз - имею возможность сделать его общедоступным - сделаю это в ближайшее время. Тут не раз упоминался trec.nist.gov - там я не нашел corpusa файлов для тестирования - так же нет такого корпуса в общедоступном - одинаковом для всех виде на схожем по тематике русском треке - типа это коммерческая информация - в общем - если есть заинтересованные - мой корпус бесплатен - первые заинтересовавшиеся - смогут его получить - :) с условием прежде скачать и посмотреть StopKa.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

11 июня 2007, 17:03

#42

осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄

L

35

Leom

11 июня 2007, 17:04

#43

vitali_y:

Сотрудничать с большим клиентом много выгоднее - но я, конечно, пытаюсь здраво оценивать свои возможности - поэтому оринтироваться буду просто на людей - т.е. на каждого в отдельности. Тут у меня еще есть, что сказать (точнее про что промолчать).

Насчет объема индексируемой информации - я свои тесты проводил на новостных текстах порядка 140000 html документов объемом около 700mb.
......................

140К документов и 700 мег это совсем мало.

А насчет ориентации на просто пользователей -- смотри чтобы не получилась работа в стол. Это просто совет не более того. Для тех кому надо 1-2 гига всего индексить и на локальном диске вполне устроит бесплатный яндекс или гугл.

В любом софте должно быть то что он решает намного лучше чем конкуренты.

Leo www.searchinform.ru (www.searchinform.ru)

L

35

Leom

11 июня 2007, 17:09

#44

Мехалоч:
осталось дождаться когда яндекс приобретет данный алгоритм и прощай 90% контентарунета)) поклеит все нафиг как плагиат и копирование контента 😂 🙄

Не яндекс точно не приобретет -- с одной стороны гордость не позволит, а с другой стороны мы уже давно вышли из стадии когда радовались каждому заказику и соответственно уже сегодня стоимость компании SearchInform (капитализация ) достаточно серьезная -- особенно если оценивать не только приходы а все заключенные контракты по которым мы должны проводить работы в 2008 году, так как во многих структрах бюджет сразу на следующий год закладывается.

Так что мы только поможем научить студентов заниматься не только копи-пайстэ :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

33

vitali_y

11 июня 2007, 18:16

#45

Потенциально такая "работа в стол" меня не пугает - поскольку это хобби и здесь я хозяин.

Что делать, чтобы попасть в ответы Google Bard

Вышел новый Яндекс Браузер с YandexGPT и YandexART