Это приведено только для примера -- можно при поиске похожих вырубить использование синонимов.
Опять таки для примера -- это же не главное в технологии -- все списки можно настроить под конкретную систему.
Так вам никто не мешает откачать EXE и протестить на своих примерах. В Trial версии которая там ограничение на 1 гиг индексируемых текстов и на поддержку форматов (там намерянно только html и txt )
Ну во первых технология только вышла и в этих меропритиях мы не могли учавствовать в принципе. А во вторых -- где идут тесты по поиску похожих в этихз мероприятиях?
У нас тоже учет расстояний между словами во фразе учитывается, но это далеко не всегда помогает
Что за число 11. В тестовой базе около 1000 документов и 300 мег инфы.
И на самом деле от кол-ва документов ничего не зависит. А такой малый объем делалсчя для того чтобы помещалось на СД и хоть для кого то было реально откачать из ИНЕТ.
Если бы были в базе то тоже бы нашлись.
Абсолютно неверный вывод
Нет к сожалению. Хотя портировать нет проблемпо большому счету -- нужна заинтересованность в этом. То есть при наличии серьезных пряников -- без проблем.
Могу дать. Если коротко, то лучше получать сразу патент в Евразийском патентом ведомстве (Москва)и уже оттуда подавать в США -- будет больше вероятность что выдадут -- да и денег в итоге будет потрачено меньше. Ну а если Евразия вдруг отклонит -- то будет не так обидно как если бы сразу подавать в США.
А приоритет идет все равно с дачи подачи заявки в Евразию.
Можно. Причем они работают. Проблема только в том что финансов на раскрутку всего сразу не хватает, поэжтому идем потихоньку. www.offliner.com сейчас ноомально раскрутился и дал денежку на создание и раскрутку поисковых технологий. А далее через год-два вполе возможно и LeoBase начнем раскручивать.
Все верно. И на этой СУБД в свое время был сделан ряд ну очень успешных проектов. Ряд алгоритмов там уникален, кое что из них применяется и в текущей технологии. Но выходить с СУБД слишком финансово затратно да и ее создание в полностью коммерческом виде требует не десятколв тысяч а явно поболее.......
А то что всего минутный поиск позволяет о нас найти инфу так это же замечательно :)
И это есть причем патент сейчас уже действует и в США. Я уже просто делал ошибки в своей жизни поэтому вначале были получены патенты. Да и по ряду вещей их как залог можно использовать.
Все это делалось не за 1 месяц а многие годы а сейчас протсо происходит активное вхожлдение на рынок сразу по нескольким направлениям.
Не на меня работает
1) собственная голова
2) собственная грамотная команда, которая в состоянии развить и претворить мои идеи в жизнь.
Ага так. Только с маааааааленькой поправкой. Наш фразовый по сути ничем не отличается от других фразовых (например того же яндекса).
То есть вверху будут документы которые более всего соответсвуют и т.д. Так вот в том примере по критериям фразового действительно более соответсвуют книги.
Вижу сразу возражение от Сергея -- " где доказательства Лев что Ваш фразовый реально не хуже чем у остальных.
Отвечаю сразу, чтобы не плодить много записей.
Сергей -- проверьте сие сами. Действия такие:
1) откачиваете файлы на которыхвелось тестирование (http://66.98.219.196/lbsearch/en/data.zip ) Эта линка была в фале readme.doc на который линку давал еще в первом посте
2) Берете индексатор yandex и напускаете его на эти файлы. Та всего то около 300 мег так что особо много времени на индексацию не уйдет.
3) Берете файл который вы и читали (http://66.98.219.196/lbsearch/ru/similarsearch.doc) и вбиваете запрос оттуда где показывается что фразовый хуже чем поиск похожих к запрос к yandex индексатору (который на эти вот локальные данные).
4) паблишите отличия в списках поиска по фразам у меня и у Yandex (они будут конечно -- но того чтобы все нужные документы там были вверху не будет :))
5) Качаем наш продукт по инструкции из http://66.98.219.196/lbsearch/ru/readme.doc и устанавливаем
6) делаем то что написано на странице 10 доки и далее и получаем список похожих на интересующую нас тему из нашего продукта.
7) теперт честно пробуем с помощью фразового yandex выбрать все интересующие нас документы, пыьаясь делать поиск и по другим фразам и смотрим сколь ко лишенго времени это заняло и постим об этом в форум.
Если кто то (необязательно Сергей) решит проделать эксперимент и нужна будет моя консультатция -- всегда готов помочь. Сам я намерянно этот тест проводить и публиковать не буду, так как я лицу заинтересовааное и в ответ увиже нечно вроде
Вашими руками Лев
Посему пусть руки будут не мои, а незаинтересованные :)
Посмотрите к примеру краткий демолролик (полторы минуты) -- там описывается в чем лучше чем фразовый......
Линка вот http://66.98.219.196/lbsearch/ru/searchdemoshort.exe
(размер 2 мега)
Там в динамике и очень популярно описано почему фразовый поиск хуже.
А насчет кому надо -- так пока никто не знает что это есть это никому и не надо :)
Ну например древний человек не знал что такое компьютер и даже не знал чт о такое счеты. Так вот если у него спросить " а нужен тебе компьютер " то он ответит нет. И что на базе этого вывод -- что комп нафиг никому не нужен?
А вот если этому древнему человеку объяснить что с помощью компа и инет-а он вместо того чтобы посылать гонца в соседнее племя на другом острове чтобы достваить письмо за неделю сможет это сделать за 1 минуту -- то тогда скажет что надо, но вначале конечно надо дать ему попробовать все преимущества этого.
Это я к тому что например мои крупные заказчики на информационных системах уже подсели на иглу поиска похожих и уже их не убедишь что фразового хватит. А вначале когда подсаживал так тоже было -- но хорошо что будет, а сейчас это одна из самых используемых функций. Например в одной из моих систем -- ЮРКОЛЦЕНТР -- только в одном центре силит 40 операторов и по телефону отвечает на ЮРвопросы и база знаний при этом там ну очень не маленькая и используется интенсивно.
А как же найдя один интересный документ найти на него похожие по содержанию среди базы например в 1 млн документов.
Не надо путать фразовый поиск (который есть и унас но упори на нем не делаем) с поиском документов похожих по содержанию
Посмотрите демо-ролик и расскажите как с помощью какой то еще технологии модно найдя первый интересный документ ,.scnhj найти похожие на него.......
Еще момент. Ну например в крупной информационной системе (сдали месяц назад ЮРКОЛЦЕНТР) при вводе инфы идут документы из разных мест, но не полностью одинаковые а немного разные (например пару фраз других и т.д.) но по сути это дубли. Как с помощью яндекса решить проблему чтобы вот такие похожие документы не попадали в базу.......
Если Вам прихордилось разраббатывать хоть одну дорогую и большую прикладную систему то прекрамно поймете какой пласт проблем это решает.
Аналогично при поиске информации, найдя первый нужный документ с помощью фразового дальше жмем найти похожие и находит не дубли а реально похожие!!!
Но хотя если вы принципиально не видите разницы между фразовым поиском и поиском документов похожих по содержанию, то мне станет не интересно отвечать здесь........
То есть вы предлагаете ручками искать по разным linkexvchange ресурсам с кем меняться или что имелось ввиду под ручной работой?
А заодно может подскажете полезные проги позволяющие хоть как то упростить задачу7
И если не секрет, то 2-3 линки на наиболее нормальные дштлучсрфтпу сервисы.
заранее спасибо.
А можно линку на эту самую страницу с ПР 7 и 10К посетителей в день, чтобы глянуть как выглядят линки на другие сайты. И из какой тематики вообще этот сайт....
А то если это софт-директория или подборка ссылок на какие то ресурсы с коментами, то это одна песня.......
смысл в том чтобы вначале вышли вперед одгни клбчевые члова а потом другие
И еще в том что google лучше относится когда страница часто меняется
Проясните пожалуйста.
Если основной файл index.html а такая же ссылка это же реально
www.site.com/index.php
Неужели гугл не распознает это?
И еще вопрос -- это точно известно что он все после вопроса скипует?