Вам советую перестать подходить к дискуссии в профессиональном форуме с позиции рекламы стирального порошка - Поисковые технологии

Новые технологии поиска документов похожих по содержанию на заданный

Leom · 2026-07-01T11:07:42.0000000Z

Проблемы поиска Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Организация доступа к данным напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации. На данный момент существует много и технологий, осуществляющих фразовый поиск (Google, Hummingbird, Verity и другие), но они в отличие от нашей технологии не решают проблему поиска информации в полной мере. Так например, в базе из тысячи документов в которой содержатся новости различной тематики и художественная литература нам нужно найти информацию о, скажем, покупке и продаже IT-компаний. Используя фразовый поиск и даже идеально подбирая ключевые фразы, добиться быстрого и адекватного результата практически не возможно. Чтобы получить какой-либо приемлемый результат нам придется просматривать документ за документом, выбирая новые ключевые слова и тратя время на изучение ненужной нам информации. Но гораздо проще было бы, найдя хоть один более-менее удовлетворяющий нас по тематике текст, нажать кнопку поиска похожих на него документов Данную проблему решает технология, разработанная компанией «СофтИнформ» уникальная система поиска документов похожих по своему содержанию на заданный. Она основана на математической модели анализа структуры документа и выбора похожих слов, словосочетаний, предложений и даже массивов текста. Новая технология поиска При поиске похожих по содержанию документов задействовано все множество слов встречающихся в документе с учетом всех словоформ и словаря синонимов. После обработки запроса в результирующем списке (с указанием процесса релевантности) выводятся документы максимально похожие на заданный фрагмент текста. 100% совпадения найден документ-дубль. Документ же с меньшим процентом совпадения, соответственно, похож по содержанию на текст запроса. Следует отметить, что технология достаточно интеллектуальна для того, чтобы с высокой степенью точности определять релевантность искомого документа по отношению к запросу, не зависимо от изменений (удаление части текста, замена), внесенных в используемый в запросе текст. Наша технология защищена действующим патентом и позволяет: · Существенно уменьшить потерю времени на поиск и повторный просмотр одних и тех же или очень близких по содержанию документов, что может сэкономить компании большие деньги · Cократить время на обработку дублирующихся данных на стадии занесения информации в архив (повторный ввод или добавление очень близких по содержанию документов) · Формировать подборки документов на заданную тематику, что важно при работе с большими архивами неструктурированной (не разбитой по категориям, нерубрицированной) информации. Вдобавок система может автоматически структурировать информацию и классифицировать документы (соотносит по единожды заданной пользователем схеме новые документы с определенными рубриками), что, конечно, значительно облегчает и упрощает работу Можно посмотреть информацию о технологии. Причем все можно пощупать руками. -------- На русском языке ---------------------------- http://66.98.219.196/lbsearch/ru/brief.doc -- краткое описание технологий на полторы страницы http://66.98.219.196/lbsearch/ru/similarsearch.doc -- более подробное описание технологий на 12 страницах с примерами, скриншотами и т.д. Все пррмеры взяты из подборки данных которую можно также откачать http://66.98.219.196/lbsearch/ru/searchdemoshort.exe краткий демо-ролик http://66.98.219.196/lbsearch/ru/searchdemofull.exe -- полный демо ролик http://66.98.219.196/lbsearch/ru/readme.doc -- инструкции как и откуда откачать демо версию, чтобы пощупать собственными руками как она работает

257

AiK

8 февраля 2005, 22:38

#41

Можно я с точки зрения пользователя выступлю? :)

В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие.

Фраза про вбивку 100 Кб встречалась тут не один раз. Видимо как один из плюсов системы рассматривается. Вопрос такой возникает: а зачем? Я лично не буду копировать весь документ, т.к. при этом добавится много навигационно-оформительского мусора, а если копировать какой-то кусок, то это а) медленно и б) где гарантии, что я скопирую именно тот кусок, что нужно. А чтобы найти нужный кусок, потребуется внимательное изучение всего документа, а это опять же временные затраты. Так что с точки зрения пользователя легче нажать ссылку "найти похожие", а там "пусть лошадь думает, у неё голова большая" © :)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

9 февраля 2005, 08:43

#42

Как писал Gray
Вам не кажется, что допрежь того, как хвалиться, порядочный разработчик сам такие линки найдет?

Кажется. И то что поиска похожих нет не у verity не у fullcrum и нет у поисковиков в инет -- google yandex и т.д. я в курсе и показал почему нет к примеру у yandex и google в посте выше.

Насколько я знаю нет технологии которая ищет именно похожие по содержанию. На я могу чего то и не знать посему и спрашиваю у тех кто считает себя знатоками -- какие технологии позволяют искаать похожие по содержанию.

Как писал Gray

Вы сравниваете яблоки с валенками. Где Ваша демоверсия, которой можно проиндексировать 11 терабайт данных в 400 миллионах документов? Давайте Вы проиндексируете столько, сколько Яндекс, а потом будем сравнивать результаты поиска похожих.

Сергей вы всерьез считает что именно демо версия должна индексировать столько? Вы вообще в курсе что такое Демо версия -- вроде коль читаете сврус то вроже должны понимать что демо версия имеет ограничения по сравнению с коммерческой.

А насчет 11 террабайт --они у вас есть? Если да -- давайте приеду к вам на украину и проиндексирую, если будет для этого выделено компов 10-15.

У меня например нет 11 террабайт.

Как писал Gray

Вы же упорно продолжаете сравнивать свои результаты по своей тщательно подготовленной базе и результаты вебовских поисковиков - по вебовским базам.

Еще раз -- Вам никто не мешает потестить на собственной базе а не подобранной мной. До гига триальная векрсия индексирует.

Как писал Gray

Я Вам несколько раз задавал вопрос - а что FAST Enterprise Search, Verity Ultraseek и прочие - и каждый раз Вы тщательно обходили цитированием этот вопрос, как бы его и не было вовсе.

Отвечал и отвечаю -- нет у них поиска похожих. Если вы хотите дорказать обратное то сообщите что мне надо сделать чтобы откачать из индексатиор и проинденксить хотя бы гиг у себя на локальном винте.

В том что касается verity то как работает это технология я вкурсе полностью -- там грамотный фразовый поиск и не более.

Надеюсь ответил?

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

9 февраля 2005, 08:55

#43

Как писал AiK

Фраза про вбивку 100 Кб встречалась тут не один раз. Видимо как один из плюсов системы рассматривается. Вопрос такой возникает: а зачем?

В прикладной системе часто уже есть документ которы чедловек просматривает и он получен не из поисково системы а кпримеру пришел ко мне по мылу и хочу узнать что у меня есть на эту тему -- вот тут и полезно в запрос сразу вставить весь документ.

Как писал AiK

А чтобы найти нужный кусок, потребуется внимательное изучение всего документа, а это опять же временные затраты.

В том то и дело что можно не искать кусок а включить весь документ в запрос

Как писал AiK

Так что с точки зрения пользователя легче нажать ссылку "найти похожие", а там "пусть лошадь думает, у неё голова большая" © :)

Золотые слова!!! Именно это и есть одно из основных предназначений нашей технологии -- что найдя первый интересный документ можно просто нажать -- найти похожие и все!!!

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

9 февраля 2005, 10:29

#44

Как писал Leom

Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.

Ну да, тут большинство участников обсуждения просто погулять вышли ...

Однако, если хотите продолжать общаться, например в рамках РОМИП, настоятельно рекомендую следовать научным традициям: объективности (указывая и сильные и слабые стороны) и уважения собеседников.

GS

4

GaSS

9 февраля 2005, 10:38

#45

А реально эту технологию кто нибудь тестировал? Например в плане прикручивания поиска к сайту. Весьма забавно ведь может получиться. Ограничений фри версии вполне хватает даже на небольшой портал, а если поиск достойный, то Лео вполне ИМХО может выпустить весьма интересный фришный продукт. Я вот что то именно об этом и задумался.

GaSS

482

Sergey Petrenko

9 февраля 2005, 15:31

#46

И то что поиска похожих нет не у verity не у fullcrum и нет у поисковиков в инет -- google yandex и т.д. я в курсе и показал почему нет к примеру у yandex и google в посте выше.

Извините. Цитирую Ваш же документ:

Получается, что фразовый поиск все же не решает главной задачи быстрого нахождения нужных документов среди гигантских объемов данных. Он не дает требуемой точности, занимает много времени и отнимает драгоценные ресурсы, которые можно было бы использовать в иной сфере.

Данную проблему решает технология, разработанная компанией «СофтИнформ» – уникальная система поиска документов похожих по своему содержанию на заданный.

Здесь более чем достаточно людей, собаку съевших на семантическом анализе текста, они меня поправят, если что. Мне очевидно, что смысл данного пассажа - и всей Вашей пиар-кампании, - в том, что существующие решения обычного поиска задачу не выполняют, а Ваша технология - выполняет. Так? Т.е., очевидно, что, пиарясь, Вы противопоставляете своему поиску фразовый поиск. Почему же теперь Вы требуете показать именно поиск похожих?

Сергей вы всерьез считает что именно демо версия должна индексировать столько? Вы вообще в курсе что такое Демо версия -- вроде коль читаете сврус то вроже должны понимать что демо версия имеет ограничения по сравнению с коммерческой.

Я всерьез считаю, что сравнения должны быть адекватными. Если Вы хотите сравнивать свою демо-версию с Яндексом, то, будьте добры, сравнивайте на одной базы. Будет это база в 11 терабайт - я приму сравнение Вашего поиска с поиском по вебу Яндекса. Не хотите - Вы знакомы с Сегаловичем, я думаю, технически решить вопрос о заточке Яндекс-Сервера под поиск похожих для такого сравнения вполне возможно.

Вот когда два поиска будут искать по одной базе - вот тогда можно будет говорить о результате. А пока Вы сравниваете поиск по грязному вебу, где есть свои специфические задачи, Вам даже неизвестные, и свой поиск по тщательно отобранной базе документов со средним размером в 300 килобайт чистого текста - это сравнение валенок с яблоками с целью доказать, что Вы сами умный.

Еще раз -- Вам никто не мешает потестить на собственной базе а не подобранной мной.

Вы слышали от меня хоть слово по поводу того, что у меня есть поиск, который ищет лучше Вашего? Нет. Вот когда я скажу такое, то будьте уверены - я возьму Вашу версию и сравню ее на одинаковой базе с другим поиском, прежде чем скажу хоть полслова про сравнения публично.

И Вам советую перестать подходить к дискуссии в профессиональном форуме с позиции рекламы стирального порошка.

Отвечал и отвечаю -- нет у них поиска похожих. Если вы хотите дорказать обратное то сообщите что мне надо сделать чтобы откачать из индексатиор и проинденксить хотя бы гиг у себя на локальном винте.
В том что касается verity то как работает это технология я вкурсе полностью -- там грамотный фразовый поиск и не более.

А причем здесь похожие? В вышепроцитированном отрывке Вы однозначно заявляете - Ваша технология ищет лучше, чем их. Докажите собственное утверждение. Вы не господь бог и Ваши слова не есть воплощенная истина. А выкрики - "доказывайте сами" - никак не свидетельствуют о качестве технологии.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

9 февраля 2005, 15:59

#47

Как писал Gray

Извините. Цитирую Ваш же документ:

Здесь более чем достаточно людей, собаку съевших на семантическом анализе текста, они меня поправят, если что. Мне очевидно, что смысл данного пассажа - и всей Вашей пиар-кампании, - в том, что существующие решения обычного поиска задачу не выполняют, а Ваша технология - выполняет. Так? Т.е., очевидно, что, пиарясь, Вы противопоставляете своему поиску фразовый поиск. Почему же теперь Вы требуете показать именно поиск похожих?

Давайте по порядку.

- существующие решение выполняют задачу фразового поиска но гне выполняют задачу поиска документов похожих по содержанию.

-- противопоставляю поиску похожих фразовый поиск, так как потска похожих как такового ни у кого нет (по крайней мере я не знаю у кого он реализован -- если не прав то с удовольствие послушаю у какой системы он есть).

Как писал Gray

Я всерьез считаю, что сравнения должны быть адекватными.
.............
А причем здесь похожие? В вышепроцитированном отрывке Вы однозначно заявляете - Ваша технология ищет лучше, чем их.

Еще раз -- лучше ищет похожие документы, а в то что мой фразовый лучше чем чей то еще я вообще не говорил. А в то что лучше ищет похожие то да.

И если Вы говорите про yandex -- то не надо нигде ничего затачивать -- у yandex есть поиск по локальному диску вот с ним надо и сравнивать индексируя не обязательно 11 террабайт (откуда цифра то кстати?).

Позиционирование данной технологии в текущий момент это не веб поиск а локальные и корпоративные системы. Вы вот пытаетесь мне объяснить что в вебе масса проблем и т.д. -- так я верю и тот же паук должен быть напимсан правильно и т.д. -- но какое это отношение имеет к технологиям поиска? Всегда надо разделять технологии и оболочку в которую они заключены........

Как писал Gray

Докажите собственное утверждение. Вы не господь бог и Ваши слова не есть воплощенная истина. А выкрики - "доказывайте сами" - никак не свидетельствуют о качестве технологии.

На РОМИП я уже предложил дорожку по поиску похожих. А что вы хотите чтобы я доказал? Я кажется уже привел детальные примеры подтверждающие что поиск похожих не работае не у yandex не у google -- но, Сергей, сразу подчеркну -- что я не говорил что это плохие системы -- просто у них нет этой возможности вот и все.

И реально ее ни у кого нет. А для ряда задач эти возможности очень востребованы.

И цель постов на этом форуме была отнюдь не реклама и не попытка кому то что то доказать а огромное жедание увидет аргументированную критику и возможно указание на системы которых я не знаю (я же не господь бог как вы верно заметили).

Попытки обвинить меня в пиаре честно говоря не понятны. Вы же сами знаете Сергей что на Ваш форум ходят не корпоративные заказчики (которые мне ну очень интересны) а профессионалы-технари -- а какой смсыл пиарить среди них то?

Они же не купят........

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

9 февраля 2005, 18:22

#48

Как писал Leom

И реально ее ни у кого нет.

полнадоела, конечно, эта дискуссия.

идем, для начала на http://labs.google.com/papers.html

и видим, например, там 4ую по списку статью людей, работающих в Гугле, опубликовавших ее в 1997 году

Syntactic Clustering of the Web. Appeared in Proceedings of the Sixth Word Wide Web Conference (WWW6).

(http://gatekeeper.dec.com/pub/DEC/SRC/technical-notes/abstracts/src-tn-1997-015.html)

-------------------------------------

Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse, Geoffrey Zweig

Note #1997-015. July 25, 1997

We have developed an efficient way to determine the syntactic similarity of files and have applied it to every document on the World Wide Web. Using this mechanism, we built a clustering of all the documents that are syntactically similar. Possible applications include a "Lost and Found" service, filtering the results of Web searches, updating widely distributed web-pages, and identifying violations of intellectual property rights.

-------------------------------------

и т.д.

Ну и, вообще, довольно странно думать, что эта задача никем не решалась. Методов - миллион, например, в области разбиения на кластеры, определение novelity и т.п.

Просто задача слабо востребована.

Но чтобы - "ни у кого нет"?

Что далеко ходить - мы выполняли (читай продали) пару исследований для двух разных коллекций документов, включая организацию оценки экспертами примерно 10 разных способов сравнения.

Подробности - комм.тайна заказчика.

Как писал Leom

поиск похожих не работае не у yandex не у google

При этом мое мнение - довольно странная задача искать "похожие документы".

Это только ползадачи. Зачем мне еще один такой же документ?

Пользователю, скорее всего требуются документы частично похожие на данный, и отличия желательно расскласифицировать.

Допускаю, что в реальной системе с некотролируемыми потребностями пользователей потребуется специально "возмущать" поиск "похожих".

Как писал Leom

Попытки обвинить меня в пиаре честно говоря не понятны. Вы же сами знаете Сергей что на Ваш форум ходят не корпоративные заказчики (которые мне ну очень интересны) а профессионалы-технари -- а какой смсыл пиарить среди них то?

Я не знаю за какие деньги Вы собираетесь поставлять свои решения. С некоторого момента - когда сумма заказываемой работы начинает превышать сколько-то там ефимков, когда уже невозможно точно рассчитать выполнимость проекта, можно только доверять - редко когда покупают сразу, сначала спрашивают у друзей-конкурентов, сравнивают.

Поэтому "карму" портить не стоит, вряд ли будет хорошо, если к Вам будут относиться с сомнением ...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

L

35

Leom

9 февраля 2005, 19:07

#49

Как писал bvd

Syntactic Clustering of the Web. Appeared in Proceedings of the Sixth Word Wide Web Conference (WWW6).
(http://gatekeeper.dec.com/pub/DEC/SRC/technical-notes/abstracts/src-tn-1997-015.html)
-------------------------------------

Кластеризация это фактически авторубрикация и это немного другое.

Как писал bvd

Просто задача слабо востребована.
Но чтобы - "ни у кого нет"?

Уважаемый BVD могу ответить на вопрос почему ни у кого нет. Реализовать то конечно можно как вы заметили 1001 методом, но какое при этом будет время реакции. Если система на один запрос о поиске похожих из базы например 30гиг (корпоративная инфа очень средней величины) будет думать 2 часа то это никому не надо.

Это я к тому что все и всегда можно вообще сделать перебором и без всяких там алгоритмов -- но он будет никому не надо.

У нас же изюминка что оно быстро работает.

Как писал bvd

При этом мое мнение - довольно странная задача искать "похожие документы".

Это только ползадачи. Зачем мне еще один такой же документ?

Пользователю, скорее всего требуются документы частично похожие на данный, и отличия желательно расскласифицировать.

Абсолютног правильно. Но кто мешает на прикладном уровне задать что показывать документы похожие с процентом 5%-70% -- а это гарантированно не копии этого же документа. Давайте разделять прикладуху с технологиями. Про прикладные решения я воообще не говорил -- их может быть множество но все равно ведь прикладуха всегда пляшет от технологий.

Еще важней не допустить на этапе ввода в систему дублей, а вернее не полных дублей которые можно по md5 или crc отследить, а там где вроде документы и разные но фактьически одинаковые.

Как писал bvd

Я не знаю за какие деньги Вы собираетесь поставлять свои решения. С некоторого момента - когда сумма заказываемой работы начинает превышать сколько-то там ефимков, когда уже невозможно точно рассчитать выполнимость проекта, можно только доверять - редко когда покупают сразу, сначала спрашивают у друзей-конкурентов, сравнивают.

Обычно еще смотрят что фирма уже сделала, а тут у меня хороший список причем проектов реально работающих и где всегда можно спросить что думают о работе с компанией СофтИнформ.

QUOTE]Как писал bvd

Что далеко ходить - мы выполняли (читай продали) пару исследований для двух разных коллекций документов, включая организацию оценки экспертами примерно 10 разных способов сравнения.

А можно подробней без раскрытия коммерческрой тайны что значит исследования коллекций документов -- какая цель?

Авторубрицировать их, получить позитив-негатив или удалить дубли и очень похожие?

Я не против на этих коллекциях протестировать свою технологию, причем прямо у вас в офисе.

А вообще BVD вы откуда -- из Москвы? Если да то готов пообщаться визуально -- в Москве часто бываю. Может быть визуальный спор будет полезен и мне и Вам.

Да и вообще готов пообщаться со всеми желающими и протестить наши технологии на ваших данных большого объема.

Мое мыло: leo собака softinform точка ком

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

9 февраля 2005, 19:33

#50

Как писал Leom

Кластеризация это фактически авторубрикация и это немного другое.

я извиняюсь, конечно, Вы abstract-то читали?

-------------------------------------

Andrei Z. Broder, Steven C. Glassman, Mark S. Manasse, Geoffrey Zweig

Note #1997-015. July 25, 1997

We have developed an efficient way to determine the syntactic similarity of files and have applied it to every document on the World Wide Web. Using this mechanism, we built a clustering of all the documents that are syntactically similar. Possible applications include a "Lost and Found" service, filtering the results of Web searches, updating widely distributed web-pages, and identifying violations of intellectual property rights.

-------------------------------------

вот Вам еще из результатов

http://www.google.com/search?hl=en&q=syntactic+similarity+of+files+

U. Manber. Finding Similar Files in a Large File System. In Proceedings of USENIX-1994

см. также тех, кто сослался - то есть занимается тем же или очень похожим и т.д.

http://citeseer.ist.psu.edu/context/11471/54679

Как писал Leom

Если система на один запрос о поиске похожих из базы например 30гиг (корпоративная инфа очень средней величины) будет думать 2 часа то это никому не надо.
...
У нас же изюминка что оно быстро работает.

Рад за Вас, но кому это надо?

Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.

Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?

Как писал Leom

Давайте разделять прикладуху с технологиями.

Это как?

Как писал Leom

А можно подробней без раскрытия коммерческрой тайны что значит исследования коллекций документов -- какая цель?

Цель-то и есть самая большая коммерческая тайна.

А методы - не проблема.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Что делать, чтобы попасть в ответы Google Bard

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Новые технологии поиска документов похожих по содержанию на заданный