Андрей -- глянул -- интересная задумка, но пока я так понял что вы заточились сугубо под несколько вопросов. Я прав?
Ну например я дал запрос и к вам и к яндексу
Какие системы полнотекстового поиска есть в России
В итоге yandex:
----------------------
3. Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в ...
Описаны некоторые детали реализации полнотекстового поиска и ранжирования в Яндексе: особенности архитектуры выполнения запроса; параметризация поиска ...
Мы благодарны организаторам семинара не только за возможность сравнить полнотекстовый поиск Яндекса с другими системами, но и за настойчивость и ...
company.yandex.ru/articles/romip2004.xml · 21 КБ
4. Компьютерные Вести On-line. Тестирование программ для полнотекстового поиска
Специалисты из университета Висконсина провели тщательное, можно сказать, научное тестирование 12 утилит для полнотекстового поиска на компьютере.
Программы для полнотекстового поиска тестировались по шести критериям: точность, эффективность, универсальность и безопасность поиска, удобство ...
www.kv.by/index2005191103.htm · 25 КБ
5.CNews: Анонсирована новая версия программы для полнотекстового поиска ...
Компанией "СофтИнформ" выпущена новая версия программы SearchInform - корпоративной системы, предназначенной для полнотекстового поиска, а также ...
www.cnews.ru/news/line/index.shtml?2007/01/09/230484 · 39 КБ
------------------------------------------------
Ссылка 3 и ссылка 5 напрямую отсылают к системам полнотекстового поиска которые есть в России.
Теперь смотри по вам и к сожалению на первой странице нет прямой ссылки ни на одну российскую систему.
Или может я неудобный вопрос задал? :)
А вообще коллега задумка интересная, если доведете ее до ума. Вы как я понял в Москве? Я там с учетом того что один из наших офисов в Москве бываю очень часто. И с удовольствием готов с Вами пересечься где нибудь вечером за пивом -- думаю общие темы найдем :) Если будет желание пишите мне на leo собака softinform точка com
Не яндекс точно не приобретет -- с одной стороны гордость не позволит, а с другой стороны мы уже давно вышли из стадии когда радовались каждому заказику и соответственно уже сегодня стоимость компании SearchInform (капитализация ) достаточно серьезная -- особенно если оценивать не только приходы а все заключенные контракты по которым мы должны проводить работы в 2008 году, так как во многих структрах бюджет сразу на следующий год закладывается.
Так что мы только поможем научить студентов заниматься не только копи-пайстэ :)
140К документов и 700 мег это совсем мало.
А насчет ориентации на просто пользователей -- смотри чтобы не получилась работа в стол. Это просто совет не более того. Для тех кому надо 1-2 гига всего индексить и на локальном диске вполне устроит бесплатный яндекс или гугл.
В любом софте должно быть то что он решает намного лучше чем конкуренты.
ну 10 минут гиг это долго очень :) (если конечно там не файлики по 100 байт)
А вообще за сколько гиг некорректный вопрос. Гораздо интерсней за сколько например 500 гиг текста проиндексится. Дело в том что у любой системы производительность падает с увеличением числа данных только вот порог у кажой системы свой.
Для нас например реально 600 гиг -- террабайт на одном компе и порядка 30-40 млн документов.
У остальных систем предел ну намного меньше. А для корпоративного клиента без объемов смысла нет и без реального масштабирования и многих других вещей.
Виталий -- очень советую провести тесты на 100 гигах на 500 гигах и т.д. и уверен найдешь очень много интересного для себя и очень много узких мест :)
Твоя целеустремленность очень хорошее качество. Только советую верно расчитать силы, чтобы после определенного этапа не захотелось все это забросить, потому как без команды и сперьезных денег сдвинуть с мертвой точки нереально продукты ориентированные на корпоративный рынок..........
Виталий -- ты кажется в Минске живешь? Напиши мне свой телефон на leo собака softinform точка com Мне любопытно будет с тобой пересечься. Мне вообще интересны люди с идеями -- сам когда то из таких вышел :)
P.S.
Почему шинглы работают намного хуже и медленней я ответил в предыдущем своем сообщении. Далее в связи с отсутствием времени в теоретические споры вступать вряд ли буду.
Если кто то готов продемонстрировать готовый продукт а не голые рассуждения, который например перемелет 200--300К рефератов и будет находить плагиат, то посмотрю с огромным удовольствием -- конкуренция стимул развиваться :)
А теория мне не интересна -- я практик.
Если же кого то интересует практическое использование наших технологий или какое то сотрудничество то пишите на leo собака softinform точка com
Потому как шинглы ну совсем не учитывают порядка слов в том же куске и ну очень чувствительны к вставке новых слов и смене мест слов.
Привожу пример
Слово код
Образования 1
международных 2
экономических 3
отношений 4
между 5
разными 6
странами 7
культурных 8
Оригинал:
образования международных экономических отношений между разными странами === (1,2,3,4, 5,6,7)
Измененный
Образование международных культурных и экономических отношений между странами== (1, 2,8 ,3 4,5,7)
Как видим всего то одно слово вставлено в предложение, а одно убрали а на самом деле это плагиат.
Тем разбиваем на шинглы по 3 слова как тут приводил некто не отвечающий за свои слова и хамящий (кузьмин)
Итак разбиваем обе части и оригинал и измененное на шинглы и создаем талицу кодов шинглов :
шингл ! код шингла
1,2,3 1
2,3,4 2
3,4,5 3
4,5,6 4
5,6,7 5
1,2,8 6
2,8,3 7
8,3,4 8
4,5,7 9
Теперь составляем фразы уже из шинглов :
Оригинал = Ш1, Ш2, Ш3, Ш4, Ш5
Измененный = Ш6, Ш7, Ш8, Ш3, Ш9
И что мы видим что из 5 шинглов похож только 1 -- значит не плагиат.
Теперь для чистоты эксперимента создаю в SearchInform индекс где всего 2 текстовых документа
- tepmplate.txt (оригинал )
- new.txt (измененный)
Запускаю индексаци. и у нас плказывает что то около 50% .
Шинглы бы показали 20%. Причем они бы показали 20% и там где похожести вообще нет. Приведу пример
Оригинал: Война между разными странами ведет к упадку экономики и готовит почву для диктатуры . (предлоги не учитываю)
Новый : Расстояние между разными странами часто влияет на близость языка их народов.
Получаем из 7 шинглов измененного один совпадает с оригиналом. Итого типа = 15% похожести. Хотя тут и рядом ничего похождего нет
Теперь смотрим у нас. Показывает что на новый template похож новый измененный всего на 10%.
Эксперимент данный могут с нашей системой провести все желающие -- откачав триальный SearchInform Desktop --- не надо даже плагиатинформ рнегить.....
Про скорость я вообще молчу :)
Индексация с шинглами будет ну очень медленной да и поиск потом тоже будет крайне неслабо тянуть времени, поэтому даже если бы шинглы давали хороший результат то применять их на практике в большиъ объемах нельзя просто. :)
Отвечаю. Сорри не заметил в вопросах одного мудозвона который не отвечает за свои слова (Кузьмин) и в ответ хамит -- Ваш вопрос :)
Морфология да есть. Семантики нет -- мы языконезависимая технология где все что связано с языком монтируемо. В том что касается технических терминов с сокращениями и т.д. проблем нет -- все будет работать замечательно. Ну а формулы и например графики (синусоиды там всякие и т.д.) мы естественно игнорируем.
То есть если документ состоит просто из одних формул без текста, тогда мы не будем работать. Но в реальной жизни всеже даже в очень техническом тексте формул вряд ли будет более 20% -- в этом случае все будет хорошо.
Я Вам также. Я лично тоже не програмирую уже давно -- для этого у меня хватает программистов.
Если на Ваш взгляд так легко сделать, так давайте
- увеличим сумму спора например до 10К
- вы наймете программиста и он сделает по вашему алгоритму на шинглах
Слабо?
Если уверены на 100% то вы на этом сможете заработать, а если не отвечаете сами за свои слова, то смысла с вами спорить нет
Спорим?
Давайте например на $2000 поспорим (сумма то не фантастика) что Вы не сделаете это на шинглах.
Тестировать очень просто берем ряд тестов как с Вашей так и с нашей стороны и прогоняем через обе системы (к примеру по 10-20) тестов.
И по результатам того что и как сработало смотрим.
Слабо? Сумму спора кстати можно и поднять если Вы готовы :)
Сравнение по md5 или шинглы отслеживают только если данные практически одинаковы. То есть по md5 например можно отследить только если 100% одинаково.
У нас же собственные технологии поиска документов похожих по содержанию которые запатентованы и ничего общего с шинглами не имеют и поэтому мы отследим даже такое (приведу пример маленького абзаца)
------- оригинал ------------------
Образование международных экономических объединений содействует развитию производственных отношений между этими странами, однако, это создает препятствия для экономических отношений со странами из других группировок, что ведет к концентрации торговых потоков внутри экономических объединений.
--- исправленная копия -----
Развитию производственных отношений между этими странами содействует образование международных экономических объединений. Это создает препятствия для экономических отношений со странами из других группировок, что несомненно ведет к концентрации торговых потоков внутри экономических объединений.
---------------------------------------------
Как видим мы переписали немного, но по сути это все равно плагиат. Так вот в нашей системе на оригинал говорит что похожесть = 100% а во втором случае что 78% -- что говорит о том что реально это всеже плагиат.
При желании можно все посмотреть в действии зарегитрировавшись вот здесь http://www.searchinform.ru/main/full-text-search-products-searchinform-plagiatinform-buy.html
Далее с Вами свяжется менеджер и все покажет и расскажет и если надо предоставит триальную версию для установки у вас.