Leom

Рейтинг
35
Регистрация
02.05.2004

Появилась стабильная коммерчесчкая версия, которая не треьует шаманства для работы а нормально инсталируется и т.д. И которая уже реально работает у живых клиентов, причем как desktop версия так и корпоративная.

особо буду благодарен сисадминам которые смогут протестить корпоративную версию в различных сетях. Наш отдел тестировки конечно работает, но есетественно 100% багов никогда не выловит без сторонних тестирощиков.

Теперь что нового по функционалу

-- нормальная работа с любыми базами-данных

-- увеличение скорости работы

-- поддержак outlook

-- и много много другого --0 все навскимдку не вспомню......

В общем если то что обсуждалось тогда было альфа-версией, то то что сейчас комерческая.......

Как писал Zute
Берите: http://www.dataparksearch.org/ - только с .exe боюсь облом будет :), только в исходниках и только под юниксы.

Да это я уже понял и сам -- гуглом пользоваться умею:)

Поэтому и постил предыдущую мессагу -- может кто даст потестить в виде exe и под виндой, а то с Nix у меня нет специалистов. А под виндой мой отдел системного программирования протестит очень конкретно -- и выложит на общее обозрение отчет о тестах.......

Если кто готов дать exe -- пишите в приват

leo собака softinform точка com

Как писал Zute


Искать с учётом расстояний и выводить с учётом расстояний - две большие разницы :)
DataparkSearch выводит с учётом расстояний, но не ищет.

Крайне любопытно.

Если хранятся позиции слов, для того чтобы ранжировать с учетом расстояний, то сделать возможность искать по расстояниям, это же чисто интефейсная надстройка

А можно ли где-то (например у Вас) полусчить готовые exe этой вещи и дать ей проиндексить например 30 гиг файлов на локале -- чтобы ее уж сильно не затруднять дам только тексты и html и документов там будет под 1 млн.......

Очень интересно будет взглянуть на ранжирование по расстоянию.......

Как писал Maxim Golubev



3) Согласен, не всё идеально, надо работать, работать и работать...
4) NB. В отличие от других алгоритмов, в этом, чем больше данных - тем он умнее становиться, как мозг у человека.

Хоть у вас и не все готово, но можно ли хоть что-то потестить? А то словам веры мало. а вот exe с инструкциями как его установить я бы с удовольствием скачал и потестил. Даже в прмежуточной версии уже должно что то работать -- пусть хуже чем в финальной но все же........

А если нет никакой версии чтобы пощупать, то тогда интерес резко пропадает.......

Как писал Zute


Совершенно не прав. Морфология поддерживается, поиск по фразам с учётом морфологии тоже. Поиск фраз с учётом расстояния интересует только теоретиков поиска. :)

То есть поиск по фразам с расстоянием не поддерживается?

Насчет теоретиков -- не знаю. Все поисковики стараются вначале ввывести те документы где расстояние между словами во фразе минимальное.

А без расстояний будет ну очень много мусора......

Господа проясните насчет возможностей поиска обсудаемых систем.

То что они морфологию не поддерживают -- понятно.

Вопрос -- а как насчет поиска по фращзам с растоянием? Из описаний я пока увидел что они ищут только по набору слов с логической комбинацией and.

Прав ли я?

Как писал AlexA
Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно.

Что имеется ввиду под предобработкой? Если индексация данных то естественно она идет, но более никакой предобработки.

Если интересует скорость то в той версии что выложена это 2 гига систых текстов в час, а в новой версии (оптимизированная математика) будет скорость индексации 5-6 гиг чистых текстов в часю При обновлении документов естественно обновляется и индекс.

Как писал AlexA

Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто.

Индекс конечно же строится, но не для предопределенных запрсов а для любых.

Как писал bvd


я извиняюсь, конечно, Вы abstract-то читали?

Все замечательно в том числе и новые ссылки, но вопрос: где готовый софт который можнго потестить? Теория, это все хорошо, но где сие работает на практике. А то вот мы тоже патент на поиск похожих получили еще пару лет назал а технологии которые пощупать можно появились только сейчас и в отличии от нашегот патента которыцй описывает очень общие вещи -- практическая математика как раз и дает хороший результат.

Как писал bvd


Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.

Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется. Для статичной базы можно вообще один раз все просчитать и все -- это неинтересно.......

Как писал bvd


Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?

Интересны в первую очередь если мы говорим не об исключении дублей как раз не совсем одлниаковые а похожие по тематике.

Судя по всему Вы говорите о статической базе которая не пополняется -- а я все время говорю о реальной прикладной системе которая активно пополняется.

Как писал bvd


Syntactic Clustering of the Web. Appeared in Proceedings of the Sixth Word Wide Web Conference (WWW6).
(http://gatekeeper.dec.com/pub/DEC/SRC/technical-notes/abstracts/src-tn-1997-015.html)
-------------------------------------

Кластеризация это фактически авторубрикация и это немного другое.

Как писал bvd

Просто задача слабо востребована.
Но чтобы - "ни у кого нет"?

Уважаемый BVD могу ответить на вопрос почему ни у кого нет. Реализовать то конечно можно как вы заметили 1001 методом, но какое при этом будет время реакции. Если система на один запрос о поиске похожих из базы например 30гиг (корпоративная инфа очень средней величины) будет думать 2 часа то это никому не надо.

Это я к тому что все и всегда можно вообще сделать перебором и без всяких там алгоритмов -- но он будет никому не надо.

У нас же изюминка что оно быстро работает.

Как писал bvd


При этом мое мнение - довольно странная задача искать "похожие документы".

Это только ползадачи. Зачем мне еще один такой же документ?

Пользователю, скорее всего требуются документы частично похожие на данный, и отличия желательно расскласифицировать.

Абсолютног правильно. Но кто мешает на прикладном уровне задать что показывать документы похожие с процентом 5%-70% -- а это гарантированно не копии этого же документа. Давайте разделять прикладуху с технологиями. Про прикладные решения я воообще не говорил -- их может быть множество но все равно ведь прикладуха всегда пляшет от технологий.

Еще важней не допустить на этапе ввода в систему дублей, а вернее не полных дублей которые можно по md5 или crc отследить, а там где вроде документы и разные но фактьически одинаковые.

Как писал bvd


Я не знаю за какие деньги Вы собираетесь поставлять свои решения. С некоторого момента - когда сумма заказываемой работы начинает превышать сколько-то там ефимков, когда уже невозможно точно рассчитать выполнимость проекта, можно только доверять - редко когда покупают сразу, сначала спрашивают у друзей-конкурентов, сравнивают.

Обычно еще смотрят что фирма уже сделала, а тут у меня хороший список причем проектов реально работающих и где всегда можно спросить что думают о работе с компанией СофтИнформ.

QUOTE]Как писал bvd



Что далеко ходить - мы выполняли (читай продали) пару исследований для двух разных коллекций документов, включая организацию оценки экспертами примерно 10 разных способов сравнения.

А можно подробней без раскрытия коммерческрой тайны что значит исследования коллекций документов -- какая цель?

Авторубрицировать их, получить позитив-негатив или удалить дубли и очень похожие?

Я не против на этих коллекциях протестировать свою технологию, причем прямо у вас в офисе.

А вообще BVD вы откуда -- из Москвы? Если да то готов пообщаться визуально -- в Москве часто бываю. Может быть визуальный спор будет полезен и мне и Вам.

Да и вообще готов пообщаться со всеми желающими и протестить наши технологии на ваших данных большого объема.

Мое мыло: leo собака softinform точка ком

Как писал Gray

Извините. Цитирую Ваш же документ:

Здесь более чем достаточно людей, собаку съевших на семантическом анализе текста, они меня поправят, если что. Мне очевидно, что смысл данного пассажа - и всей Вашей пиар-кампании, - в том, что существующие решения обычного поиска задачу не выполняют, а Ваша технология - выполняет. Так? Т.е., очевидно, что, пиарясь, Вы противопоставляете своему поиску фразовый поиск. Почему же теперь Вы требуете показать именно поиск похожих?

Давайте по порядку.

- существующие решение выполняют задачу фразового поиска но гне выполняют задачу поиска документов похожих по содержанию.

-- противопоставляю поиску похожих фразовый поиск, так как потска похожих как такового ни у кого нет (по крайней мере я не знаю у кого он реализован -- если не прав то с удовольствие послушаю у какой системы он есть).

Как писал Gray


Я всерьез считаю, что сравнения должны быть адекватными.
.............
А причем здесь похожие? В вышепроцитированном отрывке Вы однозначно заявляете - Ваша технология ищет лучше, чем их.

Еще раз -- лучше ищет похожие документы, а в то что мой фразовый лучше чем чей то еще я вообще не говорил. А в то что лучше ищет похожие то да.

И если Вы говорите про yandex -- то не надо нигде ничего затачивать -- у yandex есть поиск по локальному диску вот с ним надо и сравнивать индексируя не обязательно 11 террабайт (откуда цифра то кстати?).

Позиционирование данной технологии в текущий момент это не веб поиск а локальные и корпоративные системы. Вы вот пытаетесь мне объяснить что в вебе масса проблем и т.д. -- так я верю и тот же паук должен быть напимсан правильно и т.д. -- но какое это отношение имеет к технологиям поиска? Всегда надо разделять технологии и оболочку в которую они заключены........

Как писал Gray


Докажите собственное утверждение. Вы не господь бог и Ваши слова не есть воплощенная истина. А выкрики - "доказывайте сами" - никак не свидетельствуют о качестве технологии.

На РОМИП я уже предложил дорожку по поиску похожих. А что вы хотите чтобы я доказал? Я кажется уже привел детальные примеры подтверждающие что поиск похожих не работае не у yandex не у google -- но, Сергей, сразу подчеркну -- что я не говорил что это плохие системы -- просто у них нет этой возможности вот и все.

И реально ее ни у кого нет. А для ряда задач эти возможности очень востребованы.

И цель постов на этом форуме была отнюдь не реклама и не попытка кому то что то доказать а огромное жедание увидет аргументированную критику и возможно указание на системы которых я не знаю (я же не господь бог как вы верно заметили).

Попытки обвинить меня в пиаре честно говоря не понятны. Вы же сами знаете Сергей что на Ваш форум ходят не корпоративные заказчики (которые мне ну очень интересны) а профессионалы-технари -- а какой смсыл пиарить среди них то?

Они же не купят........

Всего: 125