Leom

www.searchinform.com

Рейтинг

Регистрация

02.05.2004

Новые технологии поиска документов похожих по содержанию на заданный

9 февраля 2005, 08:55

Как писал AiK

Фраза про вбивку 100 Кб встречалась тут не один раз. Видимо как один из плюсов системы рассматривается. Вопрос такой возникает: а зачем?

В прикладной системе часто уже есть документ которы чедловек просматривает и он получен не из поисково системы а кпримеру пришел ко мне по мылу и хочу узнать что у меня есть на эту тему -- вот тут и полезно в запрос сразу вставить весь документ.

Как писал AiK

А чтобы найти нужный кусок, потребуется внимательное изучение всего документа, а это опять же временные затраты.

В том то и дело что можно не искать кусок а включить весь документ в запрос

Как писал AiK

Так что с точки зрения пользователя легче нажать ссылку "найти похожие", а там "пусть лошадь думает, у неё голова большая" © :)

Золотые слова!!! Именно это и есть одно из основных предназначений нашей технологии -- что найдя первый интересный документ можно просто нажать -- найти похожие и все!!!

Новые технологии поиска документов похожих по содержанию на заданный

9 февраля 2005, 08:43

Как писал Gray
Вам не кажется, что допрежь того, как хвалиться, порядочный разработчик сам такие линки найдет?

Кажется. И то что поиска похожих нет не у verity не у fullcrum и нет у поисковиков в инет -- google yandex и т.д. я в курсе и показал почему нет к примеру у yandex и google в посте выше.

Насколько я знаю нет технологии которая ищет именно похожие по содержанию. На я могу чего то и не знать посему и спрашиваю у тех кто считает себя знатоками -- какие технологии позволяют искаать похожие по содержанию.

Как писал Gray

Вы сравниваете яблоки с валенками. Где Ваша демоверсия, которой можно проиндексировать 11 терабайт данных в 400 миллионах документов? Давайте Вы проиндексируете столько, сколько Яндекс, а потом будем сравнивать результаты поиска похожих.

Сергей вы всерьез считает что именно демо версия должна индексировать столько? Вы вообще в курсе что такое Демо версия -- вроде коль читаете сврус то вроже должны понимать что демо версия имеет ограничения по сравнению с коммерческой.

А насчет 11 террабайт --они у вас есть? Если да -- давайте приеду к вам на украину и проиндексирую, если будет для этого выделено компов 10-15.

У меня например нет 11 террабайт.

Как писал Gray

Вы же упорно продолжаете сравнивать свои результаты по своей тщательно подготовленной базе и результаты вебовских поисковиков - по вебовским базам.

Еще раз -- Вам никто не мешает потестить на собственной базе а не подобранной мной. До гига триальная векрсия индексирует.

Как писал Gray

Я Вам несколько раз задавал вопрос - а что FAST Enterprise Search, Verity Ultraseek и прочие - и каждый раз Вы тщательно обходили цитированием этот вопрос, как бы его и не было вовсе.

Отвечал и отвечаю -- нет у них поиска похожих. Если вы хотите дорказать обратное то сообщите что мне надо сделать чтобы откачать из индексатиор и проинденксить хотя бы гиг у себя на локальном винте.

В том что касается verity то как работает это технология я вкурсе полностью -- там грамотный фразовый поиск и не более.

Надеюсь ответил?

Новые технологии поиска документов похожих по содержанию на заданный

8 февраля 2005, 20:32

Как писал Ashmanov

Лев, у поисковиков есть поиск похожих, и мы его с вами вместе тестировали в переговорной месяц назад. В результатах поиска можно у каждой ссылки на документ попросить найти похожие на него.
Тогда вы почему-то не отрицали наличия такого поиска у Я, Г, Р.

Так это не поиск похожих по содержанию.

В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие.

И кстати тогда Вы сами признали что поиск похожих у Я, Г, Р работает не совсем предсказуемо. Нужен пример -- ну давайте приведу.

Yandex запрос

Блокировка рекламы в интернет

Вот ссылка на скриншот с рез-тами

http://66.98.219.196/screens/1.gif

1-ый документ отсутсвует. Второй есть и вот что когда его гружу

http://66.98.219.196/screens/2.gif

И вот что выдает когда жму жать похожие на него

http://66.98.219.196/screens/3.gif

Да уж похожие ничего не скажешь......

Идем далее берем 3-ий из списка -- вот как он выглядит

http://66.98.219.196/screens/4.gif

А теперть жмем похожие и берем типа самый похожий на него (который сразу после него) и видим

http://66.98.219.196/screens/5.gif

Ладно --может у гугля лучше -- ну что же берем запрос к гуглю

best ad blocker и видим результат

http://66.98.219.196/screens/6.gif

Жмем на первый же результат на похожие и видим

http://66.98.219.196/screens/7.gif

начиная с 3-его документа ни о какой похожести и говорить не приходится.

Да и вторая линка тоже в общем то не в тему -- по содержанию она ну совсем другая, там только предлагается интеграция с adscleaner -- но причем здесь похожесть по содержанию.....

Ну пример с rambler я уже приводить не стал -- надо будет -- приведу.

Видите ли Игорь -- если я что то утверждаю, то готов приводит доказательство своих слов, чтобы народ мог их проверить.

Как писал Ashmanov

Достаточно уже вашего утверждения о том, что вы отвергаете выводы отчёта. Отчёт делался для внутренних целей, готовить его для публичной публикации не вижу смысла.
Нет события.

Ага выводы отчета как и то что яндекс и гугл ищет документы похожие по содержанию я отвергаю, но естественно публиковать его публично без Вашего разрешения я не буду, хотя как вижу по форуму народ был бы не против -- аргументы всеже интересней чем просто глое мнение, пусть даже и очень авторитетного человека.

Как писал Ashmanov

Можно. Если обсуждать. А вот грузить всех читателей маркетинговыми поливами не стоило бы.

Ух , а где маркетинг то? Желание потестить с другими системами, коих как некоторые утверждают множество -- это грузить маркетингом?

Как писал Ashmanov

А вы именно такие доводы и приводите. Тогда приведите хоть одно доказательство того, что у вас есть новая, уникальная, хорошо работающая технология. Ваша демо-версия таким доказательством не является. Увы.
А об алгоритме вы молчите, как партизан.

Ну надеюсь выше подробный пример доказывающий что яндекс и гугл не ищет походие убедителен?

И демо версия является доказатьельством -- можно проиндексировать до гига данных и посмотреть на результат, а можно скаачать 300 подготовленных мег и с ними поиграться.

А про алгоритмы -- так и буду молчать -- это богатсво нашей компании, как впрочем и вы наверно не будете рассказывать источники ваших финансовых поступлений если я об этом спрошу........ И кстати правильно сделаете. Только я и спрашивать об этом не буду -- считаю некорректным......

QUOTE]Как писал Ashmanov

То есть читателей форума Вы хотите убедить именно простыми декларациями? А они ведь тоже в основном имеют высшее техническое образование...
Я вот тоже имею такое образование. Трижды с вами встречался, ничего, кроме маркетинговых деклараций не услышал, а штука - по существу не работает.

Помилуйте как раз декларации идут с Вашей стороны без всяких дрказательств, а с моей и демо версия, которая реально работает и объяснение почему у яндекса и гугля нет поиска документов похожих по содержанию и готовность провести тесты.

А на РОМИП в этом году однозначно буду учавствовать.

Новые технологии поиска документов похожих по содержанию на заданный

8 февраля 2005, 16:30

Как писал Ashmanov
Лев,

отвечаю: нет, ничего мы не готовы, а зачем?

Игорь, да потому как Вячеслав утверждал что новотека умеет тоже самое -- так вот я и хочу потестить. Причем я готов на тех же тестовых данных которые сейчас в инет (300 мб) проиндексирвоать движком новотеки и выдать на общественность результат -- от Вас не потребуется даже время тратить. Заметьте, что если бы Вяеслав не упомянул что новотека умеет делать тоже самое, то я бы и не предлагал с ней тестировать.

Но впрочем если Вы не хотите тестировать и сравнивать -- это Ваше право и тут без комментариев.

Как писал Ashmanov

а с чего бы вдруг мы должны все вместе собраться, напрячься и старательно тестировать вашу технологию, сравнивая со всеми системами, что у нас есть? У нас своих дел полно.

Так я же предлагаю вам не тратить время а провести тестирование самостоятельно. У меня и в мыслях не было предлагать Вам все бросить ради меня.

Я просил лишь рабочие комплекты которые можно откачать из Инет и проиндексить им сколько то данных, а потом поискать похожие и опубликовать результат.

Как писал Ashmanov

Вам предлагают на РОМИП

Обязательно буду учавствовать . В прошлом году просто не было смысла -- не было готового комплекта.

Как писал Ashmanov

Вы нарочно выступаете в провокационном стиле, подбиваете спорить, требуете от участников доказывать, что они не верблюды. Я вот, мол, заявляю, что Путин - дурак, и пусть он немедленно сюда выйдет и опровергнет меня.

Вообще то я ничего не утверждаю и не доказываю, а предлагаю дать ссылки на готовые комплект неважно каких технологий чтобы их самостоятельно протестить, от чего вы упорно уходите.

Как писал Ashmanov

Вы горячо утверждаете, что у всех поисковиков поиск похожих плохой! Неубедительно.
Мы же с вами смотрели на экране и Яндекс, и Рамблер, и Гугл. Как-то они ищут похожие, не такой он уж и плохой. Да, есть и нерелевантные находки.

Опять легкое передергивание. У поисковиков просто нет поиска похожих, а есть поиск по фразам, посему некорректно говорить что он плохой или хороший. Ну не могу я ни на одном поискорвие вогнать в запрос например 10кб текста и нажать найти похожие......

Как писал Ashmanov

А потом Харин посмотрел - и пишет, что у вас релевантность так себе. Каждый второй-третий документ сомнительный. Ну и что дальше?

Игорь, а можно я опубликую мои комментарии к отчету Харина с указанием на то что ряд выводов не соотвествует действительности?

Свои то комментарии я безусловно могу и сам опубликовать, но вот чтобы публиковать отчет Харина нужно Ваше согласие -- я не собираюсь нарущать правила приватности и публиковать без Вашего согласие.

Так даете согласие? Если да то я выложу в Инет ссылки и на отчет Харина и на свои комментарии к этому отчету.

Вам Игорь, если помните я эти комментарнии отсылал.

Как писал Ashmanov

И с чего это мы должны публиковать отчёт и защищать его от ваших опровержений?
Мы посмотрели, протестировали. У меня появилось своё мнение. Я его высказал.

Ну вообще то я ожидал что если Вы мнение высказываете, то будете мотивировать его какими то фактами, которые каждый желающий может проверить сам.

Как писал Ashmanov

Вы извините, это выглядит так, как если бы Вы пришли в какую-то компанию незнакомых вам людей, и стали кричать, что вы тут самый сильный и любому морду набьёте. "А, не хотите проверить, кто сильнее - значит, вы боитесь меня!. Давай, давай, выходи..."
А люди просто собрались чаю выпить, а не с вами драться.

Ну извините про то что нельзя обсуждать новые технологии я не знал. А изначально запостить сюда инфу меня попросил через конференцию сврус Сергей Петренко.

И сравнить мне надо не для того чтобы убедится что наши технологии лучше, а для объективности. Вполне возможно что после тестирования обнаружится что некоторые моменты нам надо дорабатывать.

По моему это нормальное желание. Причем, заметьте ни Вас ни Вячеслава обидеть цели не ставилось. Но просто меня как человека с техническим образованием доводы без доказательств как то не убеждают........

Новые технологии поиска документов похожих по содержанию на заданный

8 февраля 2005, 14:57

Как писал Vyacheslav Tikhonov

Во-первых, я на форуме нигде не пиарился, рассказывая в каждом посте, что Новотека единственная и неповторимая, и ничего круче нету, как это делаете вы. Я просто упомянул, что упомянутые задачи она решает, как - смотрите сайт.

1) на мой взгляд новотека пор сути ничем не отличается от Яндекс-новости. И посему говорить что она единственная и неповторимая тяжело.

2) Про свою технологию -- я не пиарю -- здесь неподходящая аудитория для этого. Пиарить надо в прессе а не здесь..... Как вы сами прикрасно пннимаете крупные заказчики сюда не ходят. А цель -- чтобы если кто знает какая еще технология позволяет такое -- то чтобы дали ссылки на такую технологию, чтобы можно было потестить и сравнить

А также очень интересует объективная критика с изложением примеров где работает некорректно.

Безусловно никакая система нечеткого поиска не будет всегда искать на 100% верно, но если из 100 запросов она отрабатывает 99% верно или если из списка результатов в основном нужные данные и мало мусора, то это уже становится актуальным.

То есть вопрос то я ставлю не в том что нгаша технология идеальна, а в том что ряд задач она решает лучше чем то что сейчас имеется на рынке.

3) Про нвоотеку -- в упор не нашел на сайте как можно скачать демку, проиндексить ей свои данные -- хотя бы те на которых тестилось и выложить на широкое обозрение результаты тестов, причем так чтобы все желаюшие смогли проверить

Как писал Vyacheslav Tikhonov

Вашу систему я не тестировал - мне вполне хватило понять, что это пустышка, просмотрев те документы, которые вы с ней давали для ознакомления. Это, извините, просто детский сад! По-моему, вам Борис уже намекал про уровень изложения.

Знаете напоминает фразу

" Я свидетель, а что случилось? "

Насчет того как и что изложено -- спорить не буду -- может можно было изложить и более качественно, но вот как не протестировав можно сделать заключение? И при этом говорить что новотека умеет тоже самое но в тоже время не давать ее протестить.......

Я например без тестирования новотеки не могу вот сказать на 100% как она ищет похожие, а из описания на с айте этого ну никак не следует.

Посему еще раз говорю -- чтобы сие не было пуустыми базарами -- давайте протестим поставив рядом новотеку и нашу систему, причем чтобы это было честно -- пусть будут 2 набора данных ну например по гигу -- один мой, второй ваш.

Итак жду ответа, но если Вас не очень затруднит, то не размытого а конкрентного (да или нет) -- готовы протестировать новотеку и нашу систему на одних и тех же наборах данных?

Новые технологии поиска документов похожих по содержанию на заданный

8 февраля 2005, 14:08

Как писал Vyacheslav Tikhonov

Елы-палы! Ну что за человек, одна распальцовка!
Исключительно крутостью заказчиков пытается бить. :)
Почему-то в таких случаях у меня всегда возникает ощущение, что чем больше крика, тем меньше там сделано. Прошу меня извинить, если это не так.
Движок Новотеки это умеет делать, и не только это.

А вы протестируйте сами и поймете что не распальцовка.

Давайте я протестирую движок новотеки -- скорость индексирование и нахождение похожих по содержанию документов ну хотя бы все нга той же базе из 300 мб. Или для полноты картины можем сделать базу гиг на 20 и протестить там и новотеку и наши технологии и довести результаты этого до общественности. Если хотите можете вы подготовить эти 20 гиг и мне или по почте переслать или могу забрать как буду в Москве. А если до гига -- то можно и в инет выложить и скачать оттуда.

Коль вы говорите про распальцовку -- то отвечу в Вашем же стиле -- хотя лично я предпочитаю таких терминов не употреблять тщательно не протестировав предмет о котором говорю, а Вы судя по всему лично не тестировали. Или я не прав?

Что слабо -- или с вашей стороны распальцовка без доказательств?

Как писал Vyacheslav Tikhonov

Что касается вашего "супералгоритма". Частотные характеристики слов никак не могут показывать важность слов в тексте, какие бы сказки вы тут не пытались рассказывать о "секретной" формуле, по которой их можно посчитать.

А кто Вам сказал что применяются и учитываются только частотные характеристики? Там к примеру один из 4 коофициентов (методик) по которым у нас считается основан на расстоянии между некоторыми словами -- то есть фразовый анализ.

Как писал Vyacheslav Tikhonov

У вас же я что-то не увидел никаких ссылок ни на лексические цепочки, ни на другие алгоритмы, только рассказы о том, как вы изобретали "вечный двигатель".

Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.

А алгоритмы уж извините я излагать не буду. Вообще то говоря конечному потребителю нужны не алгоритмы а решение проблемы. Когда я лечу на боинге то мне комфортней чеи на ТУ и меня не интересует в чем алгоритмы аэродинамики боинга отличаются от ТУ.

Новые технологии поиска документов похожих по содержанию на заданный

8 февраля 2005, 09:31

Как писал AlexA
Если действительно есть эффективный алгоритм, то Вас, Лев, надо только поздравить. Решение проблемы доказательства качества по сравнению с существующими решениями (в т.ч. и нашими), думаю, будет полезно и Вам и нам. Сейчас стандартный путь - РОМИП.

Алексей, а Ваши это какие? Можно даже не дожидаясь РОМИП провести тестирование.

Можете написать мне в приват promotion@offliner.com

Насчет РОМИП -- не нашел на сайте когда и что будет в 2005 году. А на указанное там мыло шлю запрос (romip@oasis.apmath.spbu.ru ) Или куда то еще надо подавать заявку?

Новые технологии поиска документов похожих по содержанию на заданный

7 февраля 2005, 10:57

Как писал Ashmanov

В общем, поиск похожих - довольно тонкая задача.
И речь как раз нужно вести о том, чем предлагаемый Львом алгоритм поиска похожих КАРДИНАЛЬНО отличается от существующих в Яндексе и Рамблере, Гугле и прочих поисковиках.

Абсолютно верно, так как делать что то похожее на существующее смысла нет -- тяжко будет пробивать. Все что делает моя компания отличается и очень сильно от существующего (ну например тот же inetadviser -- www.offliner.com) И всегда только за счет новизны мне и удавалось с относительно небольшими финансами нормально продвигать при наличии на рынке серьезных конкурентов.

Как писал Ashmanov

Насколько я понимаю, Лев выдвигает два принципиальных отличия своей технологии: 1) качество поиска, 2) скорость поиска/индексирования на огромных массивах документов.

Коротко скажу, что мы на прошлой неделе протестировали модуль, который Лев передал нам в Москве, нам не понравилось - релевантность поиска пока низкая. То есть находимые документы - на самом деле не очень похожие.

Тут бы неплохо набор данных и выложить их в веб и с пояснениями в чем плоха релевантность, чтобы все жедающие Игорь смогли сами убедиться и пощупать.

Я в любом случае за истину. Так что как выложите в веб вашу подборку данных -- первый скачаю проиндексирую и посмотрю в чем низкая релвантность.

Я пока вижу что релевантность высокая -- шума в ответе не более 10% если смотреть до момента пока процент похожести >2%

А если вы нашли низкую релевантность где процент похожести менее 1% -- то это вопрос не к технологии а к восприятию информации.

Как писал Ashmanov

Таким образом, по качеству кардинального отличия от других производителей мы пока не усмотрели.

От каких например, а то эта фраза мне напоминает " в отличии от других порошков..... "

Скажите мне откуда можно скачать индексатор который будет искать документы похожие по содержанию на заданный. Только не надо говорить про Яндекс и Гугл -- нет у них поиска похожих и локального индексатора который позволит искать похожие.

Если я не прав, то буду очень признателен за ссылочки.

Как писал Ashmanov

Тестировал Николай Харин, это один из лучших специалистов в России, его алгоримы поиска и ранжирования использовались и используются в ОРФО, Следопыте, МультиЛексе, Рамблере, Спамтесте, Новотеке.

К слову сказать следопыт работает намного медленней чем поиск того же Яндекс. И в отличии от рамблера (который реально заслуживает уважения) следопыт по моему вообще немного не в теме.

Я ни в коем разе не преуменьшаю грамотности Николая Харина, но хотелось бы коль оценивал Николай, то чтобы он сюда и запостил свой отчет с указщанием какая из существующих систем с поиском похожих сделала это лучше чем наша. Если это умеет делать движок новотеки, то пусть выложит exe для тестирования и я прогоню и его и свои данные через оба движка и донесу до общественности объективный результат.

Новые технологии поиска документов похожих по содержанию на заданный

7 февраля 2005, 10:35

Как писал bizhan

Вопрос два - чем ваша технология отличается от следующего:
- берем все слова исходного документа
- приводим их к нормальной форме (морфология)
- для слов из списка синонимов добавляем синонимов
- делаем из них запросв вида слово1 OR слово 2 и так далее
- выполняем его
Павел

Ну я видел что уже частично на этот вопрос ответил Игорь Ашманов -- дублировать не буду.

Лишь добавлю. Паша ты все пытаешься свести к фразе -- расскажи свой алгоритм -- так бесполезно это -- математику никто естественно открывать не будет. Могу лишь сказать что прим определении похожести используется 4 разных коофициента, часть из которых общеизвестны, а часть наше ноухау.

Ты проще откачай exe -- и проиндекси им дло гига текстовых файлов среди которых явно есть похожие и убедишься в результате.

Если откачивать только exe -- то там чуть более 10 мег, что надеюсь не разорит........

Новые технологии поиска документов похожих по содержанию на заданный

7 февраля 2005, 10:19

Как писал bvd

Э, батенька...
Так может для каждого запроса будем список синонимов и список стоп-слов определять?

Еще раз повторю -- это дополнительна возможность которая в примере присутвует только для того чтобы покзать что это возможно. А нормально искать будет и без синонимов

Как писал bvd

Мне времени не хватает на проверку своих систем.
Вам придется самому доказывать, что она лучше других,
и хотя бы стоит времени, которое потратит пользователь, воспользовавшийся Вашей рекомендацией.

Так вам доказывать мне смысла нет, а корпоративныому заказчику -- так это тема отдельная и не для этого форума. Не знаю говорит вам о чем то что например hummmingbird уже этим заинтересовалось.........

1 ... 4 5 6 7 8 9 10 11 12 13

Всего: 125

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Leom