Новые технологии поиска документов похожих по содержанию на заданный

Leom · 2026-07-01T11:07:42.0000000Z

Проблемы поиска Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Организация доступа к данным напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации. На данный момент существует много и технологий, осуществляющих фразовый поиск (Google, Hummingbird, Verity и другие), но они в отличие от нашей технологии не решают проблему поиска информации в полной мере. Так например, в базе из тысячи документов в которой содержатся новости различной тематики и художественная литература нам нужно найти информацию о, скажем, покупке и продаже IT-компаний. Используя фразовый поиск и даже идеально подбирая ключевые фразы, добиться быстрого и адекватного результата практически не возможно. Чтобы получить какой-либо приемлемый результат нам придется просматривать документ за документом, выбирая новые ключевые слова и тратя время на изучение ненужной нам информации. Но гораздо проще было бы, найдя хоть один более-менее удовлетворяющий нас по тематике текст, нажать кнопку поиска похожих на него документов Данную проблему решает технология, разработанная компанией «СофтИнформ» уникальная система поиска документов похожих по своему содержанию на заданный. Она основана на математической модели анализа структуры документа и выбора похожих слов, словосочетаний, предложений и даже массивов текста. Новая технология поиска При поиске похожих по содержанию документов задействовано все множество слов встречающихся в документе с учетом всех словоформ и словаря синонимов. После обработки запроса в результирующем списке (с указанием процесса релевантности) выводятся документы максимально похожие на заданный фрагмент текста. 100% совпадения найден документ-дубль. Документ же с меньшим процентом совпадения, соответственно, похож по содержанию на текст запроса. Следует отметить, что технология достаточно интеллектуальна для того, чтобы с высокой степенью точности определять релевантность искомого документа по отношению к запросу, не зависимо от изменений (удаление части текста, замена), внесенных в используемый в запросе текст. Наша технология защищена действующим патентом и позволяет: · Существенно уменьшить потерю времени на поиск и повторный просмотр одних и тех же или очень близких по содержанию документов, что может сэкономить компании большие деньги · Cократить время на обработку дублирующихся данных на стадии занесения информации в архив (повторный ввод или добавление очень близких по содержанию документов) · Формировать подборки документов на заданную тематику, что важно при работе с большими архивами неструктурированной (не разбитой по категориям, нерубрицированной) информации. Вдобавок система может автоматически структурировать информацию и классифицировать документы (соотносит по единожды заданной пользователем схеме новые документы с определенными рубриками), что, конечно, значительно облегчает и упрощает работу Можно посмотреть информацию о технологии. Причем все можно пощупать руками. -------- На русском языке ---------------------------- http://66.98.219.196/lbsearch/ru/brief.doc -- краткое описание технологий на полторы страницы http://66.98.219.196/lbsearch/ru/similarsearch.doc -- более подробное описание технологий на 12 страницах с примерами, скриншотами и т.д. Все пррмеры взяты из подборки данных которую можно также откачать http://66.98.219.196/lbsearch/ru/searchdemoshort.exe краткий демо-ролик http://66.98.219.196/lbsearch/ru/searchdemofull.exe -- полный демо ролик http://66.98.219.196/lbsearch/ru/readme.doc -- инструкции как и откуда откачать демо версию, чтобы пощупать собственными руками как она работает

L

35

Leom

9 февраля 2005, 20:13

#51

Как писал bvd

я извиняюсь, конечно, Вы abstract-то читали?

Все замечательно в том числе и новые ссылки, но вопрос: где готовый софт который можнго потестить? Теория, это все хорошо, но где сие работает на практике. А то вот мы тоже патент на поиск похожих получили еще пару лет назал а технологии которые пощупать можно появились только сейчас и в отличии от нашегот патента которыцй описывает очень общие вещи -- практическая математика как раз и дает хороший результат.

Как писал bvd

Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.

Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется. Для статичной базы можно вообще один раз все просчитать и все -- это неинтересно.......

Как писал bvd

Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?

Интересны в первую очередь если мы говорим не об исключении дублей как раз не совсем одлниаковые а похожие по тематике.

Судя по всему Вы говорите о статической базе которая не пополняется -- а я все время говорю о реальной прикладной системе которая активно пополняется.

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AA

70

AlexA

11 февраля 2005, 08:50

#52

Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется.

Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно. Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто. Я могу сказать, даже в силу моего слабого представления, что индексы, используемые, скажем, в Яндексе, далеко не исчерпываются словарем слов документов с инвертированными списками, используемыми при простом фразовом поиске.

Точно также я бы поступил и с Вашей задачей быстрого поиска похожих. Построил характеристики документов, разложил бы на элементы, построил для них индексы (естественно, обновляемые при пополнении). Предполагаю, Вы сделали нечто подобное.

С уважением, Антонов Александр.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

11 февраля 2005, 14:11

#53

Как писал AlexA
Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно.

Что имеется ввиду под предобработкой? Если индексация данных то естественно она идет, но более никакой предобработки.

Если интересует скорость то в той версии что выложена это 2 гига систых текстов в час, а в новой версии (оптимизированная математика) будет скорость индексации 5-6 гиг чистых текстов в часю При обновлении документов естественно обновляется и индекс.

Как писал AlexA

Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто.

Индекс конечно же строится, но не для предопределенных запрсов а для любых.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

AR

0

aleks_raiden

15 марта 2005, 15:41

#54

"В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие." - ну такое у меня есть. Алгоритм работает поверх Яндекса (тестировался Рамблер, Мета, Гугл частично), позволяет находить дубликаты и похожие документы (после дубликатов). В связи с переделкой сайта сейчас не работает, если надо, поправлю и открою. В этом нет ничего настолько принципиального. Алгоритм основан на анализе частот и сможных параметров. Создавался в рамках одного проекта, потом попробовали на инет-поиске, работает, хоть и с оговорками. Интересует - пишите в личку.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что делать, чтобы попасть в ответы Google Bard