Появилась стабильная коммерчесчкая версия, которая не треьует шаманства для работы а нормально инсталируется и т.д. И которая уже реально работает у живых клиентов, причем как desktop версия так и корпоративная.
особо буду благодарен сисадминам которые смогут протестить корпоративную версию в различных сетях. Наш отдел тестировки конечно работает, но есетественно 100% багов никогда не выловит без сторонних тестирощиков.
Теперь что нового по функционалу
-- нормальная работа с любыми базами-данных
-- увеличение скорости работы
-- поддержак outlook
-- и много много другого --0 все навскимдку не вспомню......
В общем если то что обсуждалось тогда было альфа-версией, то то что сейчас комерческая.......
Да это я уже понял и сам -- гуглом пользоваться умею:)
Поэтому и постил предыдущую мессагу -- может кто даст потестить в виде exe и под виндой, а то с Nix у меня нет специалистов. А под виндой мой отдел системного программирования протестит очень конкретно -- и выложит на общее обозрение отчет о тестах.......
Если кто готов дать exe -- пишите в приват
leo собака softinform точка com
Крайне любопытно.
Если хранятся позиции слов, для того чтобы ранжировать с учетом расстояний, то сделать возможность искать по расстояниям, это же чисто интефейсная надстройка
А можно ли где-то (например у Вас) полусчить готовые exe этой вещи и дать ей проиндексить например 30 гиг файлов на локале -- чтобы ее уж сильно не затруднять дам только тексты и html и документов там будет под 1 млн.......
Очень интересно будет взглянуть на ранжирование по расстоянию.......
Хоть у вас и не все готово, но можно ли хоть что-то потестить? А то словам веры мало. а вот exe с инструкциями как его установить я бы с удовольствием скачал и потестил. Даже в прмежуточной версии уже должно что то работать -- пусть хуже чем в финальной но все же........
А если нет никакой версии чтобы пощупать, то тогда интерес резко пропадает.......
То есть поиск по фразам с расстоянием не поддерживается?
Насчет теоретиков -- не знаю. Все поисковики стараются вначале ввывести те документы где расстояние между словами во фразе минимальное.
А без расстояний будет ну очень много мусора......
Господа проясните насчет возможностей поиска обсудаемых систем.
То что они морфологию не поддерживают -- понятно.
Вопрос -- а как насчет поиска по фращзам с растоянием? Из описаний я пока увидел что они ищут только по набору слов с логической комбинацией and.
Прав ли я?
Что имеется ввиду под предобработкой? Если индексация данных то естественно она идет, но более никакой предобработки.
Если интересует скорость то в той версии что выложена это 2 гига систых текстов в час, а в новой версии (оптимизированная математика) будет скорость индексации 5-6 гиг чистых текстов в часю При обновлении документов естественно обновляется и индекс.
Индекс конечно же строится, но не для предопределенных запрсов а для любых.
Все замечательно в том числе и новые ссылки, но вопрос: где готовый софт который можнго потестить? Теория, это все хорошо, но где сие работает на практике. А то вот мы тоже патент на поиск похожих получили еще пару лет назал а технологии которые пощупать можно появились только сейчас и в отличии от нашегот патента которыцй описывает очень общие вещи -- практическая математика как раз и дает хороший результат.
Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется. Для статичной базы можно вообще один раз все просчитать и все -- это неинтересно.......
Интересны в первую очередь если мы говорим не об исключении дублей как раз не совсем одлниаковые а похожие по тематике.
Судя по всему Вы говорите о статической базе которая не пополняется -- а я все время говорю о реальной прикладной системе которая активно пополняется.
Кластеризация это фактически авторубрикация и это немного другое.
Уважаемый BVD могу ответить на вопрос почему ни у кого нет. Реализовать то конечно можно как вы заметили 1001 методом, но какое при этом будет время реакции. Если система на один запрос о поиске похожих из базы например 30гиг (корпоративная инфа очень средней величины) будет думать 2 часа то это никому не надо.
Это я к тому что все и всегда можно вообще сделать перебором и без всяких там алгоритмов -- но он будет никому не надо.
У нас же изюминка что оно быстро работает.
Абсолютног правильно. Но кто мешает на прикладном уровне задать что показывать документы похожие с процентом 5%-70% -- а это гарантированно не копии этого же документа. Давайте разделять прикладуху с технологиями. Про прикладные решения я воообще не говорил -- их может быть множество но все равно ведь прикладуха всегда пляшет от технологий.
Еще важней не допустить на этапе ввода в систему дублей, а вернее не полных дублей которые можно по md5 или crc отследить, а там где вроде документы и разные но фактьически одинаковые.
Обычно еще смотрят что фирма уже сделала, а тут у меня хороший список причем проектов реально работающих и где всегда можно спросить что думают о работе с компанией СофтИнформ.
QUOTE]Как писал bvd
Что далеко ходить - мы выполняли (читай продали) пару исследований для двух разных коллекций документов, включая организацию оценки экспертами примерно 10 разных способов сравнения.
А можно подробней без раскрытия коммерческрой тайны что значит исследования коллекций документов -- какая цель?
Авторубрицировать их, получить позитив-негатив или удалить дубли и очень похожие?
Я не против на этих коллекциях протестировать свою технологию, причем прямо у вас в офисе.
А вообще BVD вы откуда -- из Москвы? Если да то готов пообщаться визуально -- в Москве часто бываю. Может быть визуальный спор будет полезен и мне и Вам.
Да и вообще готов пообщаться со всеми желающими и протестить наши технологии на ваших данных большого объема.
Мое мыло: leo собака softinform точка ком
Давайте по порядку.
- существующие решение выполняют задачу фразового поиска но гне выполняют задачу поиска документов похожих по содержанию.
-- противопоставляю поиску похожих фразовый поиск, так как потска похожих как такового ни у кого нет (по крайней мере я не знаю у кого он реализован -- если не прав то с удовольствие послушаю у какой системы он есть).
Еще раз -- лучше ищет похожие документы, а в то что мой фразовый лучше чем чей то еще я вообще не говорил. А в то что лучше ищет похожие то да.
И если Вы говорите про yandex -- то не надо нигде ничего затачивать -- у yandex есть поиск по локальному диску вот с ним надо и сравнивать индексируя не обязательно 11 террабайт (откуда цифра то кстати?).
Позиционирование данной технологии в текущий момент это не веб поиск а локальные и корпоративные системы. Вы вот пытаетесь мне объяснить что в вебе масса проблем и т.д. -- так я верю и тот же паук должен быть напимсан правильно и т.д. -- но какое это отношение имеет к технологиям поиска? Всегда надо разделять технологии и оболочку в которую они заключены........
На РОМИП я уже предложил дорожку по поиску похожих. А что вы хотите чтобы я доказал? Я кажется уже привел детальные примеры подтверждающие что поиск похожих не работае не у yandex не у google -- но, Сергей, сразу подчеркну -- что я не говорил что это плохие системы -- просто у них нет этой возможности вот и все.
И реально ее ни у кого нет. А для ряда задач эти возможности очень востребованы.
И цель постов на этом форуме была отнюдь не реклама и не попытка кому то что то доказать а огромное жедание увидет аргументированную критику и возможно указание на системы которых я не знаю (я же не господь бог как вы верно заметили).
Попытки обвинить меня в пиаре честно говоря не понятны. Вы же сами знаете Сергей что на Ваш форум ходят не корпоративные заказчики (которые мне ну очень интересны) а профессионалы-технари -- а какой смсыл пиарить среди них то?
Они же не купят........