В прикладной системе часто уже есть документ которы чедловек просматривает и он получен не из поисково системы а кпримеру пришел ко мне по мылу и хочу узнать что у меня есть на эту тему -- вот тут и полезно в запрос сразу вставить весь документ.
В том то и дело что можно не искать кусок а включить весь документ в запрос
Золотые слова!!! Именно это и есть одно из основных предназначений нашей технологии -- что найдя первый интересный документ можно просто нажать -- найти похожие и все!!!
Кажется. И то что поиска похожих нет не у verity не у fullcrum и нет у поисковиков в инет -- google yandex и т.д. я в курсе и показал почему нет к примеру у yandex и google в посте выше.
Насколько я знаю нет технологии которая ищет именно похожие по содержанию. На я могу чего то и не знать посему и спрашиваю у тех кто считает себя знатоками -- какие технологии позволяют искаать похожие по содержанию.
Сергей вы всерьез считает что именно демо версия должна индексировать столько? Вы вообще в курсе что такое Демо версия -- вроде коль читаете сврус то вроже должны понимать что демо версия имеет ограничения по сравнению с коммерческой.
А насчет 11 террабайт --они у вас есть? Если да -- давайте приеду к вам на украину и проиндексирую, если будет для этого выделено компов 10-15.
У меня например нет 11 террабайт.
Еще раз -- Вам никто не мешает потестить на собственной базе а не подобранной мной. До гига триальная векрсия индексирует.
Отвечал и отвечаю -- нет у них поиска похожих. Если вы хотите дорказать обратное то сообщите что мне надо сделать чтобы откачать из индексатиор и проинденксить хотя бы гиг у себя на локальном винте.
В том что касается verity то как работает это технология я вкурсе полностью -- там грамотный фразовый поиск и не более.
Надеюсь ответил?
Так это не поиск похожих по содержанию.
В чистом виде поиск похожих это я вбиваю в запрос например 100кб. текста и говорю найти похожие.
И кстати тогда Вы сами признали что поиск похожих у Я, Г, Р работает не совсем предсказуемо. Нужен пример -- ну давайте приведу.
Yandex запрос
Блокировка рекламы в интернет
Вот ссылка на скриншот с рез-тами
http://66.98.219.196/screens/1.gif
1-ый документ отсутсвует. Второй есть и вот что когда его гружу
http://66.98.219.196/screens/2.gif
И вот что выдает когда жму жать похожие на него
http://66.98.219.196/screens/3.gif
Да уж похожие ничего не скажешь......
Идем далее берем 3-ий из списка -- вот как он выглядит
http://66.98.219.196/screens/4.gif
А теперть жмем похожие и берем типа самый похожий на него (который сразу после него) и видим
http://66.98.219.196/screens/5.gif
Ладно --может у гугля лучше -- ну что же берем запрос к гуглю
best ad blocker и видим результат
http://66.98.219.196/screens/6.gif
Жмем на первый же результат на похожие и видим
http://66.98.219.196/screens/7.gif
начиная с 3-его документа ни о какой похожести и говорить не приходится.
Да и вторая линка тоже в общем то не в тему -- по содержанию она ну совсем другая, там только предлагается интеграция с adscleaner -- но причем здесь похожесть по содержанию.....
Ну пример с rambler я уже приводить не стал -- надо будет -- приведу.
Видите ли Игорь -- если я что то утверждаю, то готов приводит доказательство своих слов, чтобы народ мог их проверить.
Ага выводы отчета как и то что яндекс и гугл ищет документы похожие по содержанию я отвергаю, но естественно публиковать его публично без Вашего разрешения я не буду, хотя как вижу по форуму народ был бы не против -- аргументы всеже интересней чем просто глое мнение, пусть даже и очень авторитетного человека.
Ух , а где маркетинг то? Желание потестить с другими системами, коих как некоторые утверждают множество -- это грузить маркетингом?
Ну надеюсь выше подробный пример доказывающий что яндекс и гугл не ищет походие убедителен?
И демо версия является доказатьельством -- можно проиндексировать до гига данных и посмотреть на результат, а можно скаачать 300 подготовленных мег и с ними поиграться.
А про алгоритмы -- так и буду молчать -- это богатсво нашей компании, как впрочем и вы наверно не будете рассказывать источники ваших финансовых поступлений если я об этом спрошу........ И кстати правильно сделаете. Только я и спрашивать об этом не буду -- считаю некорректным......
QUOTE]Как писал Ashmanov
То есть читателей форума Вы хотите убедить именно простыми декларациями? А они ведь тоже в основном имеют высшее техническое образование... Я вот тоже имею такое образование. Трижды с вами встречался, ничего, кроме маркетинговых деклараций не услышал, а штука - по существу не работает.
Помилуйте как раз декларации идут с Вашей стороны без всяких дрказательств, а с моей и демо версия, которая реально работает и объяснение почему у яндекса и гугля нет поиска документов похожих по содержанию и готовность провести тесты.
А на РОМИП в этом году однозначно буду учавствовать.
Игорь, да потому как Вячеслав утверждал что новотека умеет тоже самое -- так вот я и хочу потестить. Причем я готов на тех же тестовых данных которые сейчас в инет (300 мб) проиндексирвоать движком новотеки и выдать на общественность результат -- от Вас не потребуется даже время тратить. Заметьте, что если бы Вяеслав не упомянул что новотека умеет делать тоже самое, то я бы и не предлагал с ней тестировать.
Но впрочем если Вы не хотите тестировать и сравнивать -- это Ваше право и тут без комментариев.
Так я же предлагаю вам не тратить время а провести тестирование самостоятельно. У меня и в мыслях не было предлагать Вам все бросить ради меня.
Я просил лишь рабочие комплекты которые можно откачать из Инет и проиндексить им сколько то данных, а потом поискать похожие и опубликовать результат.
Обязательно буду учавствовать . В прошлом году просто не было смысла -- не было готового комплекта.
Вообще то я ничего не утверждаю и не доказываю, а предлагаю дать ссылки на готовые комплект неважно каких технологий чтобы их самостоятельно протестить, от чего вы упорно уходите.
Опять легкое передергивание. У поисковиков просто нет поиска похожих, а есть поиск по фразам, посему некорректно говорить что он плохой или хороший. Ну не могу я ни на одном поискорвие вогнать в запрос например 10кб текста и нажать найти похожие......
Игорь, а можно я опубликую мои комментарии к отчету Харина с указанием на то что ряд выводов не соотвествует действительности?
Свои то комментарии я безусловно могу и сам опубликовать, но вот чтобы публиковать отчет Харина нужно Ваше согласие -- я не собираюсь нарущать правила приватности и публиковать без Вашего согласие.
Так даете согласие? Если да то я выложу в Инет ссылки и на отчет Харина и на свои комментарии к этому отчету.
Вам Игорь, если помните я эти комментарнии отсылал.
Ну вообще то я ожидал что если Вы мнение высказываете, то будете мотивировать его какими то фактами, которые каждый желающий может проверить сам.
Ну извините про то что нельзя обсуждать новые технологии я не знал. А изначально запостить сюда инфу меня попросил через конференцию сврус Сергей Петренко.
И сравнить мне надо не для того чтобы убедится что наши технологии лучше, а для объективности. Вполне возможно что после тестирования обнаружится что некоторые моменты нам надо дорабатывать.
По моему это нормальное желание. Причем, заметьте ни Вас ни Вячеслава обидеть цели не ставилось. Но просто меня как человека с техническим образованием доводы без доказательств как то не убеждают........
1) на мой взгляд новотека пор сути ничем не отличается от Яндекс-новости. И посему говорить что она единственная и неповторимая тяжело.
2) Про свою технологию -- я не пиарю -- здесь неподходящая аудитория для этого. Пиарить надо в прессе а не здесь..... Как вы сами прикрасно пннимаете крупные заказчики сюда не ходят. А цель -- чтобы если кто знает какая еще технология позволяет такое -- то чтобы дали ссылки на такую технологию, чтобы можно было потестить и сравнить
А также очень интересует объективная критика с изложением примеров где работает некорректно.
Безусловно никакая система нечеткого поиска не будет всегда искать на 100% верно, но если из 100 запросов она отрабатывает 99% верно или если из списка результатов в основном нужные данные и мало мусора, то это уже становится актуальным.
То есть вопрос то я ставлю не в том что нгаша технология идеальна, а в том что ряд задач она решает лучше чем то что сейчас имеется на рынке.
3) Про нвоотеку -- в упор не нашел на сайте как можно скачать демку, проиндексить ей свои данные -- хотя бы те на которых тестилось и выложить на широкое обозрение результаты тестов, причем так чтобы все желаюшие смогли проверить
Знаете напоминает фразу
" Я свидетель, а что случилось? "
Насчет того как и что изложено -- спорить не буду -- может можно было изложить и более качественно, но вот как не протестировав можно сделать заключение? И при этом говорить что новотека умеет тоже самое но в тоже время не давать ее протестить.......
Я например без тестирования новотеки не могу вот сказать на 100% как она ищет похожие, а из описания на с айте этого ну никак не следует.
Посему еще раз говорю -- чтобы сие не было пуустыми базарами -- давайте протестим поставив рядом новотеку и нашу систему, причем чтобы это было честно -- пусть будут 2 набора данных ну например по гигу -- один мой, второй ваш.
Итак жду ответа, но если Вас не очень затруднит, то не размытого а конкрентного (да или нет) -- готовы протестировать новотеку и нашу систему на одних и тех же наборах данных?
А вы протестируйте сами и поймете что не распальцовка.
Давайте я протестирую движок новотеки -- скорость индексирование и нахождение похожих по содержанию документов ну хотя бы все нга той же базе из 300 мб. Или для полноты картины можем сделать базу гиг на 20 и протестить там и новотеку и наши технологии и довести результаты этого до общественности. Если хотите можете вы подготовить эти 20 гиг и мне или по почте переслать или могу забрать как буду в Москве. А если до гига -- то можно и в инет выложить и скачать оттуда.
Коль вы говорите про распальцовку -- то отвечу в Вашем же стиле -- хотя лично я предпочитаю таких терминов не употреблять тщательно не протестировав предмет о котором говорю, а Вы судя по всему лично не тестировали. Или я не прав?
Что слабо -- или с вашей стороны распальцовка без доказательств?
А кто Вам сказал что применяются и учитываются только частотные характеристики? Там к примеру один из 4 коофициентов (методик) по которым у нас считается основан на расстоянии между некоторыми словами -- то есть фразовый анализ.
Видите ли я практик и все продукты выпускаемые компанией СофтИнформ делаются не ради научных публикаций, а ради зарабатывания денег.
А алгоритмы уж извините я излагать не буду. Вообще то говоря конечному потребителю нужны не алгоритмы а решение проблемы. Когда я лечу на боинге то мне комфортней чеи на ТУ и меня не интересует в чем алгоритмы аэродинамики боинга отличаются от ТУ.
Алексей, а Ваши это какие? Можно даже не дожидаясь РОМИП провести тестирование.
Можете написать мне в приват promotion@offliner.com
Насчет РОМИП -- не нашел на сайте когда и что будет в 2005 году. А на указанное там мыло шлю запрос (romip@oasis.apmath.spbu.ru ) Или куда то еще надо подавать заявку?
Абсолютно верно, так как делать что то похожее на существующее смысла нет -- тяжко будет пробивать. Все что делает моя компания отличается и очень сильно от существующего (ну например тот же inetadviser -- www.offliner.com) И всегда только за счет новизны мне и удавалось с относительно небольшими финансами нормально продвигать при наличии на рынке серьезных конкурентов.
Тут бы неплохо набор данных и выложить их в веб и с пояснениями в чем плоха релевантность, чтобы все жедающие Игорь смогли сами убедиться и пощупать.
Я в любом случае за истину. Так что как выложите в веб вашу подборку данных -- первый скачаю проиндексирую и посмотрю в чем низкая релвантность.
Я пока вижу что релевантность высокая -- шума в ответе не более 10% если смотреть до момента пока процент похожести >2%
А если вы нашли низкую релевантность где процент похожести менее 1% -- то это вопрос не к технологии а к восприятию информации.
От каких например, а то эта фраза мне напоминает " в отличии от других порошков..... "
Скажите мне откуда можно скачать индексатор который будет искать документы похожие по содержанию на заданный. Только не надо говорить про Яндекс и Гугл -- нет у них поиска похожих и локального индексатора который позволит искать похожие.
Если я не прав, то буду очень признателен за ссылочки.
К слову сказать следопыт работает намного медленней чем поиск того же Яндекс. И в отличии от рамблера (который реально заслуживает уважения) следопыт по моему вообще немного не в теме.
Я ни в коем разе не преуменьшаю грамотности Николая Харина, но хотелось бы коль оценивал Николай, то чтобы он сюда и запостил свой отчет с указщанием какая из существующих систем с поиском похожих сделала это лучше чем наша. Если это умеет делать движок новотеки, то пусть выложит exe для тестирования и я прогоню и его и свои данные через оба движка и донесу до общественности объективный результат.
Ну я видел что уже частично на этот вопрос ответил Игорь Ашманов -- дублировать не буду.
Лишь добавлю. Паша ты все пытаешься свести к фразе -- расскажи свой алгоритм -- так бесполезно это -- математику никто естественно открывать не будет. Могу лишь сказать что прим определении похожести используется 4 разных коофициента, часть из которых общеизвестны, а часть наше ноухау.
Ты проще откачай exe -- и проиндекси им дло гига текстовых файлов среди которых явно есть похожие и убедишься в результате.
Если откачивать только exe -- то там чуть более 10 мег, что надеюсь не разорит........
Еще раз повторю -- это дополнительна возможность которая в примере присутвует только для того чтобы покзать что это возможно. А нормально искать будет и без синонимов
.
Так вам доказывать мне смысла нет, а корпоративныому заказчику -- так это тема отдельная и не для этого форума. Не знаю говорит вам о чем то что например hummmingbird уже этим заинтересовалось.........