Новые технологии поиска документов похожих по содержанию на заданный

35

Leom

3 февраля 2005, 18:05

10780

Проблемы поиска

Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Организация доступа к данным напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации. На данный момент существует много и технологий, осуществляющих фразовый поиск (Google, Hummingbird, Verity и другие), но они в отличие от нашей технологии не решают проблему поиска информации в полной мере.

Так например, в базе из тысячи документов в которой содержатся новости различной тематики и художественная литература нам нужно найти информацию о, скажем, покупке и продаже IT-компаний. Используя фразовый поиск и даже идеально подбирая ключевые фразы, добиться быстрого и адекватного результата практически не возможно. Чтобы получить какой-либо приемлемый результат нам придется просматривать документ за документом, выбирая новые ключевые слова и тратя время на изучение ненужной нам информации. Но гораздо проще было бы, найдя хоть один более-менее удовлетворяющий нас по тематике текст, нажать кнопку поиска похожих на него документов…

Данную проблему решает технология, разработанная компанией «СофтИнформ» – уникальная система поиска документов похожих по своему содержанию на заданный. Она основана на математической модели анализа структуры документа и выбора похожих слов, словосочетаний, предложений и даже массивов текста.

Новая технология поиска

При поиске похожих по содержанию документов задействовано все множество слов встречающихся в документе с учетом всех словоформ и словаря синонимов. После обработки запроса в результирующем списке (с указанием процесса релевантности) выводятся документы максимально похожие на заданный фрагмент текста. 100% совпадения – найден документ-дубль. Документ же с меньшим процентом совпадения, соответственно, похож по содержанию на текст запроса. Следует отметить, что технология достаточно интеллектуальна для того, чтобы с высокой степенью точности определять релевантность искомого документа по отношению к запросу, не зависимо от изменений (удаление части текста, замена), внесенных в используемый в запросе текст.

Наша технология защищена действующим патентом и позволяет:

· Существенно уменьшить потерю времени на поиск и повторный просмотр одних и тех же или очень близких по содержанию документов, что может сэкономить компании большие деньги

· Cократить время на обработку дублирующихся данных на стадии занесения информации в архив (повторный ввод или добавление очень близких по содержанию документов)

· Формировать подборки документов на заданную тематику, что важно при работе с большими архивами неструктурированной (не разбитой по категориям, нерубрицированной) информации. Вдобавок система может автоматически структурировать информацию и классифицировать документы (соотносит по единожды заданной пользователем схеме новые документы с определенными рубриками), что, конечно, значительно облегчает и упрощает работу

Можно посмотреть информацию о технологии. Причем все можно пощупать руками.

-------- На русском языке ----------------------------

http://66.98.219.196/lbsearch/ru/brief.doc -- краткое описание технологий на полторы страницы

http://66.98.219.196/lbsearch/ru/similarsearch.doc -- более подробное описание

технологий на 12 страницах с примерами, скриншотами и т.д. Все пррмеры взяты

из подборки данных которую можно также откачать

http://66.98.219.196/lbsearch/ru/searchdemoshort.exe краткий демо-ролик

http://66.98.219.196/lbsearch/ru/searchdemofull.exe -- полный демо ролик

http://66.98.219.196/lbsearch/ru/readme.doc -- инструкции как и откуда

откачать демо версию, чтобы пощупать собственными руками как она работает

Leo www.searchinform.ru (www.searchinform.ru)

VT

130

Vyacheslav Tikhonov

3 февраля 2005, 23:26

#1

Так а в чем же новизна этой технологии?

130

spark

4 февраля 2005, 10:06

#2

С юзерской точки зрения для подобной задачи достаточно возможностей нечеткого поиска яндекса и наиболее ключевого абзаца документа в качестве текста запроса.

L

35

Leom

4 февраля 2005, 11:00

#3

Как писал spark
С юзерской точки зрения для подобной задачи достаточно возможностей нечеткого поиска яндекса и наиболее ключевого абзаца документа в качестве текста запроса.

А как же найдя один интересный документ найти на него похожие по содержанию среди базы например в 1 млн документов.

Не надо путать фразовый поиск (который есть и унас но упори на нем не делаем) с поиском документов похожих по содержанию

Посмотрите демо-ролик и расскажите как с помощью какой то еще технологии модно найдя первый интересный документ ,.scnhj найти похожие на него.......

Еще момент. Ну например в крупной информационной системе (сдали месяц назад ЮРКОЛЦЕНТР) при вводе инфы идут документы из разных мест, но не полностью одинаковые а немного разные (например пару фраз других и т.д.) но по сути это дубли. Как с помощью яндекса решить проблему чтобы вот такие похожие документы не попадали в базу.......

Если Вам прихордилось разраббатывать хоть одну дорогую и большую прикладную систему то прекрамно поймете какой пласт проблем это решает.

Аналогично при поиске информации, найдя первый нужный документ с помощью фразового дальше жмем найти похожие и находит не дубли а реально похожие!!!

Но хотя если вы принципиально не видите разницы между фразовым поиском и поиском документов похожих по содержанию, то мне станет не интересно отвечать здесь........

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

4 февраля 2005, 11:27

#4

А как же найдя один интересный документ найти на него похожие по содержанию среди базы например в 1 млн документов.

Лев, видите, ни мне, ни вот тут Вы не объясняете, зачем Вам (или не Вам) надо искать именно похожие. Никакой реальной задачи, кроме выявления нечетких дублей Вы не приводите, а сравнивать с имеющимися технологиями не хотите.

Ведь есть же метод супершинглов Сегаловича, который успешно работает в Яндексе - как в поиске, так и в Спамообороне. Успешно давит дубли и Рамблер.

Сейчас вот Yahoo! запустил контекстный поиск.

Разумеется, это веб-решения и нет никакого способа их прикрутить сейчас к корпоративному поиску. Но технологии-то вполне сравнимы...

L

35

Leom

4 февраля 2005, 11:48

#5

Как писал Gray

Лев, видите, ни мне, ни вот тут Вы не объясняете, зачем Вам (или не Вам) надо искать именно похожие. Никакой реальной задачи, кроме выявления нечетких дублей Вы не приводите

Посмотрите к примеру краткий демолролик (полторы минуты) -- там описывается в чем лучше чем фразовый......

Линка вот http://66.98.219.196/lbsearch/ru/searchdemoshort.exe

(размер 2 мега)

Там в динамике и очень популярно описано почему фразовый поиск хуже.

А насчет кому надо -- так пока никто не знает что это есть это никому и не надо :)

Ну например древний человек не знал что такое компьютер и даже не знал чт о такое счеты. Так вот если у него спросить " а нужен тебе компьютер " то он ответит нет. И что на базе этого вывод -- что комп нафиг никому не нужен?

А вот если этому древнему человеку объяснить что с помощью компа и инет-а он вместо того чтобы посылать гонца в соседнее племя на другом острове чтобы достваить письмо за неделю сможет это сделать за 1 минуту -- то тогда скажет что надо, но вначале конечно надо дать ему попробовать все преимущества этого.

Это я к тому что например мои крупные заказчики на информационных системах уже подсели на иглу поиска похожих и уже их не убедишь что фразового хватит. А вначале когда подсаживал так тоже было -- но хорошо что будет, а сейчас это одна из самых используемых функций. Например в одной из моих систем -- ЮРКОЛЦЕНТР -- только в одном центре силит 40 операторов и по телефону отвечает на ЮРвопросы и база знаний при этом там ну очень не маленькая и используется интенсивно.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

482

Sergey Petrenko

4 февраля 2005, 11:56

#6

почему фразовый поиск хуже

Какой именно поиск хуже? Я вижу таблицы в тексте similarsearch.doc и понимаю, что речь идет про то, что Ваш "фразовый" поиск хуже, чем Ваш же поиск похожих, так?

L

35

Leom

4 февраля 2005, 12:33

#7

Как писал Gray

Какой именно поиск хуже? Я вижу таблицы в тексте similarsearch.doc и понимаю, что речь идет про то, что Ваш "фразовый" поиск хуже, чем Ваш же поиск похожих, так?

Ага так. Только с маааааааленькой поправкой. Наш фразовый по сути ничем не отличается от других фразовых (например того же яндекса).

То есть вверху будут документы которые более всего соответсвуют и т.д. Так вот в том примере по критериям фразового действительно более соответсвуют книги.

Вижу сразу возражение от Сергея -- " где доказательства Лев что Ваш фразовый реально не хуже чем у остальных.

Отвечаю сразу, чтобы не плодить много записей.

Сергей -- проверьте сие сами. Действия такие:

1) откачиваете файлы на которыхвелось тестирование (http://66.98.219.196/lbsearch/en/data.zip ) Эта линка была в фале readme.doc на который линку давал еще в первом посте

2) Берете индексатор yandex и напускаете его на эти файлы. Та всего то около 300 мег так что особо много времени на индексацию не уйдет.

3) Берете файл который вы и читали (http://66.98.219.196/lbsearch/ru/similarsearch.doc) и вбиваете запрос оттуда где показывается что фразовый хуже чем поиск похожих к запрос к yandex индексатору (который на эти вот локальные данные).

4) паблишите отличия в списках поиска по фразам у меня и у Yandex (они будут конечно -- но того чтобы все нужные документы там были вверху не будет :))

5) Качаем наш продукт по инструкции из http://66.98.219.196/lbsearch/ru/readme.doc и устанавливаем

6) делаем то что написано на странице 10 доки и далее и получаем список похожих на интересующую нас тему из нашего продукта.

7) теперт честно пробуем с помощью фразового yandex выбрать все интересующие нас документы, пыьаясь делать поиск и по другим фразам и смотрим сколь ко лишенго времени это заняло и постим об этом в форум.

Если кто то (необязательно Сергей) решит проделать эксперимент и нужна будет моя консультатция -- всегда готов помочь. Сам я намерянно этот тест проводить и публиковать не буду, так как я лицу заинтересовааное и в ответ увиже нечно вроде

Вашими руками Лев

Посему пусть руки будут не мои, а незаинтересованные :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

G

0

GZakharov

4 февраля 2005, 14:49

#8

Leo , при всем уважении, возможно предлагать столько технологий за такой короткий период? Минутный поиск в интернете дает мне ссылки на убийцу Oracle:

http://www.leobase.com/NEW/RUSSIAN/CONTENT/PROJECTS/LEOBASE/newtechnologies.htm

И на патент по рекламной технологии:

http://www.netoscope.ru/theme/2001/12/06/4272.html

На вас кафедра МГУ в полном составе работает?

Технология Cuil - новый Любимую страницу можно добавить «Эволюция интернета» от Google

L

35

Leom

4 февраля 2005, 15:51

#9

Как писал GZakharov
Leo , при всем уважении, возможно предлагать столько технологий за такой короткий период?

Можно. Причем они работают. Проблема только в том что финансов на раскрутку всего сразу не хватает, поэжтому идем потихоньку. www.offliner.com сейчас ноомально раскрутился и дал денежку на создание и раскрутку поисковых технологий. А далее через год-два вполе возможно и LeoBase начнем раскручивать.

Как писал GZakharov

Минутный поиск в интернете дает мне ссылки на убийцу Oracle:
http://www.leobase.com/NEW/RUSSIAN/CONTENT/PROJECTS/LEOBASE/newtechnologies.htm

Все верно. И на этой СУБД в свое время был сделан ряд ну очень успешных проектов. Ряд алгоритмов там уникален, кое что из них применяется и в текущей технологии. Но выходить с СУБД слишком финансово затратно да и ее создание в полностью коммерческом виде требует не десятколв тысяч а явно поболее.......

А то что всего минутный поиск позволяет о нас найти инфу так это же замечательно :)

Как писал GZakharov
И на патент по рекламной технологии:
http://www.netoscope.ru/theme/2001/12/06/4272.html

И это есть причем патент сейчас уже действует и в США. Я уже просто делал ошибки в своей жизни поэтому вначале были получены патенты. Да и по ряду вещей их как залог можно использовать.

Все это делалось не за 1 месяц а многие годы а сейчас протсо происходит активное вхожлдение на рынок сразу по нескольким направлениям.

Как писал GZakharov

На вас кафедра МГУ в полном составе работает?

Не на меня работает

1) собственная голова

2) собственная грамотная команда, которая в состоянии развить и претворить мои идеи в жизнь.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

43

monstring

4 февраля 2005, 16:57

#10

Leom, респект.

а под linux есть разработки подобные ?

офтоп: не дадите консультацию о том как получить патент на поисковые\интелектуальные технологии в штатах ?

Дневник БоГа (http://www.seriousrevenue.com/). Лента SEO форумов (http://www.seriousrevenue.com/scripts/rubot/). Статистика денег (http://www.seriousrevenue.com/scripts/rate/).

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов