Новые технологии поиска документов похожих по содержанию на заданный

1 2345 6
L
На сайте с 02.05.2004
Offline
35
#21
Как писал bizhan




Вопрос два - чем ваша технология отличается от следующего:
- берем все слова исходного документа
- приводим их к нормальной форме (морфология)
- для слов из списка синонимов добавляем синонимов
- делаем из них запросв вида слово1 OR слово 2 и так далее
- выполняем его
Павел

Ну я видел что уже частично на этот вопрос ответил Игорь Ашманов -- дублировать не буду.

Лишь добавлю. Паша ты все пытаешься свести к фразе -- расскажи свой алгоритм -- так бесполезно это -- математику никто естественно открывать не будет. Могу лишь сказать что прим определении похожести используется 4 разных коофициента, часть из которых общеизвестны, а часть наше ноухау.

Ты проще откачай exe -- и проиндекси им дло гига текстовых файлов среди которых явно есть похожие и убедишься в результате.

Если откачивать только exe -- то там чуть более 10 мег, что надеюсь не разорит........

Leo www.searchinform.ru (www.searchinform.ru)
B
На сайте с 02.09.2002
Offline
42
bvd
#22
Как писал Leom

Так вам доказывать мне смысла нет, а корпоративныому заказчику -- так это тема отдельная и не для этого форума.

а может я как раз и есть тот самый корпоративный заказчик?

и некий опыт достаточно успешного РЕШЕНИЯ этой задачи имею.

Как писал Leom

Не знаю говорит вам о чем то что например hummmingbird уже этим заинтересовалось.........

при текущем уровне изложения: флаг им в руки - паровоз настречу....

L
На сайте с 02.05.2004
Offline
35
#23
Как писал Ashmanov

В общем, поиск похожих - довольно тонкая задача.
И речь как раз нужно вести о том, чем предлагаемый Львом алгоритм поиска похожих КАРДИНАЛЬНО отличается от существующих в Яндексе и Рамблере, Гугле и прочих поисковиках.

Абсолютно верно, так как делать что то похожее на существующее смысла нет -- тяжко будет пробивать. Все что делает моя компания отличается и очень сильно от существующего (ну например тот же inetadviser -- www.offliner.com) И всегда только за счет новизны мне и удавалось с относительно небольшими финансами нормально продвигать при наличии на рынке серьезных конкурентов.

Как писал Ashmanov

Насколько я понимаю, Лев выдвигает два принципиальных отличия своей технологии: 1) качество поиска, 2) скорость поиска/индексирования на огромных массивах документов.

Коротко скажу, что мы на прошлой неделе протестировали модуль, который Лев передал нам в Москве, нам не понравилось - релевантность поиска пока низкая. То есть находимые документы - на самом деле не очень похожие.

Тут бы неплохо набор данных и выложить их в веб и с пояснениями в чем плоха релевантность, чтобы все жедающие Игорь смогли сами убедиться и пощупать.

Я в любом случае за истину. Так что как выложите в веб вашу подборку данных -- первый скачаю проиндексирую и посмотрю в чем низкая релвантность.

Я пока вижу что релевантность высокая -- шума в ответе не более 10% если смотреть до момента пока процент похожести >2%

А если вы нашли низкую релевантность где процент похожести менее 1% -- то это вопрос не к технологии а к восприятию информации.

Как писал Ashmanov


Таким образом, по качеству кардинального отличия от других производителей мы пока не усмотрели.

От каких например, а то эта фраза мне напоминает " в отличии от других порошков..... "

Скажите мне откуда можно скачать индексатор который будет искать документы похожие по содержанию на заданный. Только не надо говорить про Яндекс и Гугл -- нет у них поиска похожих и локального индексатора который позволит искать похожие.

Если я не прав, то буду очень признателен за ссылочки.

Как писал Ashmanov

Тестировал Николай Харин, это один из лучших специалистов в России, его алгоримы поиска и ранжирования использовались и используются в ОРФО, Следопыте, МультиЛексе, Рамблере, Спамтесте, Новотеке.

К слову сказать следопыт работает намного медленней чем поиск того же Яндекс. И в отличии от рамблера (который реально заслуживает уважения) следопыт по моему вообще немного не в теме.

Я ни в коем разе не преуменьшаю грамотности Николая Харина, но хотелось бы коль оценивал Николай, то чтобы он сюда и запостил свой отчет с указщанием какая из существующих систем с поиском похожих сделала это лучше чем наша. Если это умеет делать движок новотеки, то пусть выложит exe для тестирования и я прогоню и его и свои данные через оба движка и донесу до общественности объективный результат.

AA
На сайте с 16.04.2001
Offline
70
#24

Приветствую всех участников данного обсуждения.

Тема поиска похожих документов сегодня довольно актуальна. Если действительно есть эффективный алгоритм, то Вас, Лев, надо только поздравить. Решение проблемы доказательства качества по сравнению с существующими решениями (в т.ч. и нашими), думаю, будет полезно и Вам и нам. Сейчас стандартный путь - РОМИП. Поэтому Борис и советует Вам участвовать в нем, к чему я тоже присоединяюсь.

Что до задачи "поиска похожих", то не думаю, что необходимо сразу вводить отдельную дорожку. Для начала можно обойтись дорожкой классификации (их даже две) - очень подходящая задача, подобная данной. Различия между этими задачами совсем небольшие.

Жду Ваших результатов и желаю максимального успеха.

И в любом случае желаю удачи в многотрудном деле поиска новых технологий.

С уважением, Антонов Александр.
L
На сайте с 02.05.2004
Offline
35
#25
Как писал AlexA
Если действительно есть эффективный алгоритм, то Вас, Лев, надо только поздравить. Решение проблемы доказательства качества по сравнению с существующими решениями (в т.ч. и нашими), думаю, будет полезно и Вам и нам. Сейчас стандартный путь - РОМИП.

Алексей, а Ваши это какие? Можно даже не дожидаясь РОМИП провести тестирование.

Можете написать мне в приват promotion@offliner.com

Насчет РОМИП -- не нашел на сайте когда и что будет в 2005 году. А на указанное там мыло шлю запрос (romip@oasis.apmath.spbu.ru ) Или куда то еще надо подавать заявку?

AA
На сайте с 16.04.2001
Offline
70
#26
Алексей, а Ваши это какие? Можно даже не дожидаясь РОМИП провести тестирование.

(Надеюсь, это ко мне вопрос) Отсылаю Вас опять же в РОМИП - там есть наш отчет (Галактика-Зум), а также отчеты других участников. Вы можете и сейчас взять старые дорожки и протестировать на них. Т.о. Вы получите результат, не дожидаясь РОМИП-2005. Сочтете нужным - познакомите меня (и других, естественно) с ним.

Конечно, участвовать в РОМИП-2005 тоже желательно.

Мы ведь тоже потихоньку движемся вперед - познакомитесь и с нашими результатами.

Т
На сайте с 08.02.2005
Offline
0
#27

Позвольте присоединиться к обсуждению...

---

""Тестировал Николай Харин, это один из лучших специалистов в России, его алгоримы поиска и ранжирования использовались и используются в ОРФО, Следопыте, МультиЛексе, Рамблере, Спамтесте, Новотеке.""

---

Мне почему-то кажется, что тесты специалиста, чей вклад в развитие уже существующих систем настолько существеннен, будут объективны. Зачем пускать на рынок новую технологию? :)

Но, само собой, доказать новизну и качетсвенность того, что предлагает Лев - это еще надо попробовать.

И, по-моему, это должны делать исключительно независимые эксперты. В частности, тот же РОМИП.

Но, пока до него дойдут руки может быть все же попытаться проверить все это самостоятельно. Конечно, размер файлов, предлагаемых Львом, великоват, а содержание в нем документов по количеству - маловато.

Но все же для того, чтобы получить представление о работе технологии можно скачать все это и попробовать. Я, пожалуй, так и сделаю. Да и на своей базе проверить не мешает. Как вариант, подборка публикаций из пары тройки газет за последние несколько лет вполне подойдет для теста.

И, конечно, очень хотелось бы увидеть и прочитать мнение ГУРУ (в частности Игоря Ашманова, конечно) по этому вопросу. Только не умозаключения, а выводы по конкретным тестам, сделанным самостоятельно.

Скачать и протестировать на своей базе - это все же не глобальная проблема. Судя по заявлениям, индексация даже гигабайта - дело не более получаса.

VT
На сайте с 27.01.2001
Offline
130
#28
Алексей, а Ваши это какие?

Елы-палы! Ну что за человек, одна распальцовка!

Исключительно крутостью заказчиков пытается бить. :)

Почему-то в таких случаях у меня всегда возникает ощущение, что чем больше крика, тем меньше там сделано. Прошу меня извинить, если это не так.

Если это умеет делать движок новотеки, то пусть выложит exe для тестирования и я прогоню и его и свои данные через оба движка и донесу до общественности объективный результат.

Движок Новотеки это умеет делать, и не только это.

Что касается вашего "супералгоритма". Частотные характеристики слов никак не могут показывать важность слов в тексте, какие бы сказки вы тут не пытались рассказывать о "секретной" формуле, по которой их можно посчитать.

В каком-то приближении это может и получиться, но с помощью частотных характеристик найти даже бОльшую часть действительно похожих документов не представляется возможным. Максимум - процентов 50%, не более, и то при очень высокой однородности текста, например, тематического.

Кроме того, при увеличении количества важных терминов серьезно падает точность кластеризации, несмотря на возрастающую полноту, поэтому я полагаю, что два действительно похожих документа должны иметь не более двух общих терминов с примерно одинаковыми весами, которые наиболее точно определяют тематику документа. Подумайте об этом на досуге.

У вас же я что-то не увидел никаких ссылок ни на лексические цепочки, ни на другие алгоритмы, только рассказы о том, как вы изобретали "вечный двигатель".

L
На сайте с 02.05.2004
Offline
35
#29
Как писал Vyacheslav Tikhonov

Елы-палы! Ну что за человек, одна распальцовка!
Исключительно крутостью заказчиков пытается бить. :)
Почему-то в таких случаях у меня всегда возникает ощущение, что чем больше крика, тем меньше там сделано. Прошу меня извинить, если это не так.
Движок Новотеки это умеет делать, и не только это.

А вы протестируйте сами и поймете что не распальцовка.

Давайте я протестирую движок новотеки -- скорость индексирование и нахождение похожих по содержанию документов ну хотя бы все нга той же базе из 300 мб. Или для полноты картины можем сделать базу гиг на 20 и протестить там и новотеку и наши технологии и довести результаты этого до общественности. Если хотите можете вы подготовить эти 20 гиг и мне или по почте переслать или могу забрать как буду в Москве. А если до гига -- то можно и в инет выложить и скачать оттуда.

Коль вы говорите про распальцовку -- то отвечу в Вашем же стиле -- хотя лично я предпочитаю таких терминов не употреблять тщательно не протестировав предмет о котором говорю, а Вы судя по всему лично не тестировали. Или я не прав?

Что слабо -- или с вашей стороны распальцовка без доказательств?

Как писал Vyacheslav Tikhonov


Что касается вашего "супералгоритма". Частотные характеристики слов никак не могут показывать важность слов в тексте, какие бы сказки вы тут не пытались рассказывать о "секретной" формуле, по которой их можно посчитать.

А кто Вам сказал что применяются и учитываются только частотные характеристики? Там к примеру один из 4 коофициентов (методик) по которым у нас считается основан на расстоянии между некоторыми словами -- то есть фразовый анализ.

Как писал Vyacheslav Tikhonov

У вас же я что-то не увидел никаких ссылок ни на лексические цепочки, ни на другие алгоритмы, только рассказы о том, как вы изобретали "вечный двигатель".

Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.

А алгоритмы уж извините я излагать не буду. Вообще то говоря конечному потребителю нужны не алгоритмы а решение проблемы. Когда я лечу на боинге то мне комфортней чеи на ТУ и меня не интересует в чем алгоритмы аэродинамики боинга отличаются от ТУ.

VT
На сайте с 27.01.2001
Offline
130
#30
Что слабо -- или с вашей стороны распальцовка без доказательств?

Во-первых, я на форуме нигде не пиарился, рассказывая в каждом посте, что Новотека единственная и неповторимая, и ничего круче нету, как это делаете вы. Я просто упомянул, что упомянутые задачи она решает, как - смотрите сайт.

Вашу систему я не тестировал - мне вполне хватило понять, что это пустышка, просмотрев те документы, которые вы с ней давали для ознакомления. Это, извините, просто детский сад! По-моему, вам Борис уже намекал про уровень изложения.

Во-вторых, я не люблю агрессивный маркетинг, которым вы тут который день, не очень успешно, впрочем, занимаетесь. Пиарьтесь не на тематических форумах, а на сайтах для манагеров. В философской плоскости, не опираясь ни на какие алгоритмы, вы здесь никому ничего не докажете.

Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.

Вот и зарабатывайте деньги на доверчивых простачках, а не рассказывайте сказки на форуме, на которым присутствуют представители основных IR-компаний и поисковиков, какую уникальную штуку вы придумали.

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий