Новые технологии поиска документов похожих по содержанию на заданный

L
На сайте с 02.05.2004
Offline
35
#51
Как писал bvd


я извиняюсь, конечно, Вы abstract-то читали?

Все замечательно в том числе и новые ссылки, но вопрос: где готовый софт который можнго потестить? Теория, это все хорошо, но где сие работает на практике. А то вот мы тоже патент на поиск похожих получили еще пару лет назал а технологии которые пощупать можно появились только сейчас и в отличии от нашегот патента которыцй описывает очень общие вещи -- практическая математика как раз и дает хороший результат.

Как писал bvd


Время поиска можно сделать практически мгновенным, храня только первых N документов, насчитанные заранее, а это считаться может долго.

Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется. Для статичной базы можно вообще один раз все просчитать и все -- это неинтересно.......

Как писал bvd


Если искать только совсем похожие - эти списки и пересчитываться будут очень редко - да и зачем их вообще пересчитывать, если похожие уже отобраны, пользователь получит то что хотел?

Интересны в первую очередь если мы говорим не об исключении дублей как раз не совсем одлниаковые а похожие по тематике.

Судя по всему Вы говорите о статической базе которая не пополняется -- а я все время говорю о реальной прикладной системе которая активно пополняется.

Leo www.searchinform.ru (www.searchinform.ru)
AA
На сайте с 16.04.2001
Offline
70
#52
Речь идет о том что заранее ничего не считается. Есть у меня к примеру база из 1 млн документов и в запросе задаю произвольный текст, а не заранее отобранные N вариантов. И также подразумевается что база не статичная а пополняется.

Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно. Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто. Я могу сказать, даже в силу моего слабого представления, что индексы, используемые, скажем, в Яндексе, далеко не исчерпываются словарем слов документов с инвертированными списками, используемыми при простом фразовом поиске.

Точно также я бы поступил и с Вашей задачей быстрого поиска похожих. Построил характеристики документов, разложил бы на элементы, построил для них индексы (естественно, обновляемые при пополнении). Предполагаю, Вы сделали нечто подобное.

С уважением, Антонов Александр.
L
На сайте с 02.05.2004
Offline
35
#53
Как писал AlexA
Простите, Лев, но на основании моего сравнительно небольшого опыта работы с пополняемыми базами я представляю, что без какой-либо предобработки получить приемлемое время выполнения запроса невозможно.

Что имеется ввиду под предобработкой? Если индексация данных то естественно она идет, но более никакой предобработки.

Если интересует скорость то в той версии что выложена это 2 гига систых текстов в час, а в новой версии (оптимизированная математика) будет скорость индексации 5-6 гиг чистых текстов в часю При обновлении документов естественно обновляется и индекс.

Как писал AlexA

Естественно, однако, обычно (не всегда!) это не делают с вариантами реальных запросов. А вот разложить запрос на элементы, для которых сделать индекс - вполне обозримая задача, которую приходится решать очень часто.

Индекс конечно же строится, но не для предопределенных запрсов а для любых.

AR
На сайте с 15.03.2005
Offline
0
#54

"В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие." - ну такое у меня есть. Алгоритм работает поверх Яндекса (тестировался Рамблер, Мета, Гугл частично), позволяет находить дубликаты и похожие документы (после дубликатов). В связи с переделкой сайта сейчас не работает, если надо, поправлю и открою. В этом нет ничего настолько принципиального. Алгоритм основан на анализе частот и сможных параметров. Создавался в рамках одного проекта, потом попробовали на инет-поиске, работает, хоть и с оговорками. Интересует - пишите в личку.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий