Leom

www.searchinform.com

Рейтинг

Регистрация

02.05.2004

Новые технологии поиска документов похожих по содержанию на заданный

4 февраля 2005, 18:21

Как писал bvd

- список "синонимов" (это еще стоит обсудить на множестве каких значений purchase и obtain, и особенно acquire пересекаются)

Это приведено только для примера -- можно при поиске похожих вырубить использование синонимов.

Как писал bvd
- есть еще список стоп-слов, например, почему-то "заявка"

Опять таки для примера -- это же не главное в технологии -- все списки можно настроить под конкретную систему.

Как писал bvd
В общем, пример производит впечатление подстроенного.

Так вам никто не мешает откачать EXE и протестить на своих примерах. В Trial версии которая там ограничение на 1 гиг индексируемых текстов и на поддержку форматов (там намерянно только html и txt )

Как писал bvd
Вот для того чтобы избавиться от громогласных, возможно, правдивых, но пока ни в чем не убеждающих заявлений
(Leom не первый и не последний), и проводятся мероприятия типа TREC или
РОМИП .

Ну во первых технология только вышла и в этих меропритиях мы не могли учавствовать в принципе. А во вторых -- где идут тесты по поиску похожих в этихз мероприятиях?

Как писал bvd
Даже для короткого "фразового поиска" достаточно простые методы типа BM25 + учет близости по месту встречаемости дают в СРЕДНЕМ 7 (для вэба)

У нас тоже учет расстояний между словами во фразе учитывается, но это далеко не всегда помогает

Как писал bvd

Конечно, даже небольшое улучшение поиска хорошо, но говорить о качественном улучшении - это куда - находить 11 документов что-ли?

Что за число 11. В тестовой базе около 1000 документов и 300 мег инфы.

И на самом деле от кол-ва документов ничего не зависит. А такой малый объем делалсчя для того чтобы помещалось на СД и хоть для кого то было реально откачать из ИНЕТ.

Как писал bvd
Но ведь, если рассматривать задачу поиска похожих, то почему не являются похожими документы про IBM и технологии и т.п., без всякой покупки?

Если бы были в базе то тоже бы нашлись.

Как писал bvd

То есть решается на самом деле специфическая задача того же "фразового поиска", но с заданным дополнительным контекстом.

Абсолютно неверный вывод

Новые технологии поиска документов похожих по содержанию на заданный

4 февраля 2005, 17:37

Как писал monstring
Leom, респект.
а под linux есть разработки подобные ?

Нет к сожалению. Хотя портировать нет проблемпо большому счету -- нужна заинтересованность в этом. То есть при наличии серьезных пряников -- без проблем.

Как писал monstring
офтоп: не дадите консультацию о том как получить патент на поисковые\интелектуальные технологии в штатах ?

Могу дать. Если коротко, то лучше получать сразу патент в Евразийском патентом ведомстве (Москва)и уже оттуда подавать в США -- будет больше вероятность что выдадут -- да и денег в итоге будет потрачено меньше. Ну а если Евразия вдруг отклонит -- то будет не так обидно как если бы сразу подавать в США.

А приоритет идет все равно с дачи подачи заявки в Евразию.

Новые технологии поиска документов похожих по содержанию на заданный

4 февраля 2005, 15:51

Как писал GZakharov
Leo , при всем уважении, возможно предлагать столько технологий за такой короткий период?

Можно. Причем они работают. Проблема только в том что финансов на раскрутку всего сразу не хватает, поэжтому идем потихоньку. www.offliner.com сейчас ноомально раскрутился и дал денежку на создание и раскрутку поисковых технологий. А далее через год-два вполе возможно и LeoBase начнем раскручивать.

Как писал GZakharov

Минутный поиск в интернете дает мне ссылки на убийцу Oracle:
http://www.leobase.com/NEW/RUSSIAN/CONTENT/PROJECTS/LEOBASE/newtechnologies.htm

Все верно. И на этой СУБД в свое время был сделан ряд ну очень успешных проектов. Ряд алгоритмов там уникален, кое что из них применяется и в текущей технологии. Но выходить с СУБД слишком финансово затратно да и ее создание в полностью коммерческом виде требует не десятколв тысяч а явно поболее.......

А то что всего минутный поиск позволяет о нас найти инфу так это же замечательно :)

Как писал GZakharov
И на патент по рекламной технологии:
http://www.netoscope.ru/theme/2001/12/06/4272.html

И это есть причем патент сейчас уже действует и в США. Я уже просто делал ошибки в своей жизни поэтому вначале были получены патенты. Да и по ряду вещей их как залог можно использовать.

Все это делалось не за 1 месяц а многие годы а сейчас протсо происходит активное вхожлдение на рынок сразу по нескольким направлениям.

Как писал GZakharov

На вас кафедра МГУ в полном составе работает?

Не на меня работает

1) собственная голова

2) собственная грамотная команда, которая в состоянии развить и претворить мои идеи в жизнь.

Новые технологии поиска документов похожих по содержанию на заданный

4 февраля 2005, 12:33

Как писал Gray

Какой именно поиск хуже? Я вижу таблицы в тексте similarsearch.doc и понимаю, что речь идет про то, что Ваш "фразовый" поиск хуже, чем Ваш же поиск похожих, так?

Ага так. Только с маааааааленькой поправкой. Наш фразовый по сути ничем не отличается от других фразовых (например того же яндекса).

То есть вверху будут документы которые более всего соответсвуют и т.д. Так вот в том примере по критериям фразового действительно более соответсвуют книги.

Вижу сразу возражение от Сергея -- " где доказательства Лев что Ваш фразовый реально не хуже чем у остальных.

Отвечаю сразу, чтобы не плодить много записей.

Сергей -- проверьте сие сами. Действия такие:

1) откачиваете файлы на которыхвелось тестирование (http://66.98.219.196/lbsearch/en/data.zip ) Эта линка была в фале readme.doc на который линку давал еще в первом посте

2) Берете индексатор yandex и напускаете его на эти файлы. Та всего то около 300 мег так что особо много времени на индексацию не уйдет.

3) Берете файл который вы и читали (http://66.98.219.196/lbsearch/ru/similarsearch.doc) и вбиваете запрос оттуда где показывается что фразовый хуже чем поиск похожих к запрос к yandex индексатору (который на эти вот локальные данные).

4) паблишите отличия в списках поиска по фразам у меня и у Yandex (они будут конечно -- но того чтобы все нужные документы там были вверху не будет :))

5) Качаем наш продукт по инструкции из http://66.98.219.196/lbsearch/ru/readme.doc и устанавливаем

6) делаем то что написано на странице 10 доки и далее и получаем список похожих на интересующую нас тему из нашего продукта.

7) теперт честно пробуем с помощью фразового yandex выбрать все интересующие нас документы, пыьаясь делать поиск и по другим фразам и смотрим сколь ко лишенго времени это заняло и постим об этом в форум.

Если кто то (необязательно Сергей) решит проделать эксперимент и нужна будет моя консультатция -- всегда готов помочь. Сам я намерянно этот тест проводить и публиковать не буду, так как я лицу заинтересовааное и в ответ увиже нечно вроде

Вашими руками Лев

Посему пусть руки будут не мои, а незаинтересованные :)

Новые технологии поиска документов похожих по содержанию на заданный

4 февраля 2005, 11:48

Как писал Gray

Лев, видите, ни мне, ни вот тут Вы не объясняете, зачем Вам (или не Вам) надо искать именно похожие. Никакой реальной задачи, кроме выявления нечетких дублей Вы не приводите

Посмотрите к примеру краткий демолролик (полторы минуты) -- там описывается в чем лучше чем фразовый......

Линка вот http://66.98.219.196/lbsearch/ru/searchdemoshort.exe

(размер 2 мега)

Там в динамике и очень популярно описано почему фразовый поиск хуже.

А насчет кому надо -- так пока никто не знает что это есть это никому и не надо :)

Ну например древний человек не знал что такое компьютер и даже не знал чт о такое счеты. Так вот если у него спросить " а нужен тебе компьютер " то он ответит нет. И что на базе этого вывод -- что комп нафиг никому не нужен?

А вот если этому древнему человеку объяснить что с помощью компа и инет-а он вместо того чтобы посылать гонца в соседнее племя на другом острове чтобы достваить письмо за неделю сможет это сделать за 1 минуту -- то тогда скажет что надо, но вначале конечно надо дать ему попробовать все преимущества этого.

Это я к тому что например мои крупные заказчики на информационных системах уже подсели на иглу поиска похожих и уже их не убедишь что фразового хватит. А вначале когда подсаживал так тоже было -- но хорошо что будет, а сейчас это одна из самых используемых функций. Например в одной из моих систем -- ЮРКОЛЦЕНТР -- только в одном центре силит 40 операторов и по телефону отвечает на ЮРвопросы и база знаний при этом там ну очень не маленькая и используется интенсивно.

Новые технологии поиска документов похожих по содержанию на заданный

4 февраля 2005, 11:00

Как писал spark
С юзерской точки зрения для подобной задачи достаточно возможностей нечеткого поиска яндекса и наиболее ключевого абзаца документа в качестве текста запроса.

А как же найдя один интересный документ найти на него похожие по содержанию среди базы например в 1 млн документов.

Не надо путать фразовый поиск (который есть и унас но упори на нем не делаем) с поиском документов похожих по содержанию

Посмотрите демо-ролик и расскажите как с помощью какой то еще технологии модно найдя первый интересный документ ,.scnhj найти похожие на него.......

Еще момент. Ну например в крупной информационной системе (сдали месяц назад ЮРКОЛЦЕНТР) при вводе инфы идут документы из разных мест, но не полностью одинаковые а немного разные (например пару фраз других и т.д.) но по сути это дубли. Как с помощью яндекса решить проблему чтобы вот такие похожие документы не попадали в базу.......

Если Вам прихордилось разраббатывать хоть одну дорогую и большую прикладную систему то прекрамно поймете какой пласт проблем это решает.

Аналогично при поиске информации, найдя первый нужный документ с помощью фразового дальше жмем найти похожие и находит не дубли а реально похожие!!!

Но хотя если вы принципиально не видите разницы между фразовым поиском и поиском документов похожих по содержанию, то мне станет не интересно отвечать здесь........

Большой ли толк от link exchange?

12 июля 2004, 08:05

Как писал wolf
Если грамотно подходить к делу, то толк очень большой. Причем, чем больше ручной работы, тем больше толку.

То есть вы предлагаете ручками искать по разным linkexvchange ресурсам с кем меняться или что имелось ввиду под ручной работой?

А заодно может подскажете полезные проги позволяющие хоть как то упростить задачу7

И если не секрет, то 2-3 линки на наиболее нормальные дштлучсрфтпу сервисы.

заранее спасибо.

Исходящие ссылки

6 июля 2004, 12:54

Как писал magic
Ребята вы не спорьте :) Ставьте прямые линки и ничего не бойтесь. Если ссылаетесь по теме на аторитетные сайты это вам только плюсы даст.

Проверено на весьма приличной выборке (PR-7 ~10KIP/day)

А можно линку на эту самую страницу с ПР 7 и 10К посетителей в день, чтобы глянуть как выглядят линки на другие сайты. И из какой тематики вообще этот сайт....

А то если это софт-директория или подборка ссылок на какие то ресурсы с коментами, то это одна песня.......

Смена ключевых слов по скрипту

7 июня 2004, 15:49

смысл в том чтобы вначале вышли вперед одгни клбчевые члова а потом другие

И еще в том что google лучше относится когда страница часто меняется

Афилятские линки и pagerank

7 июня 2004, 11:04

Как писал allStars
Делайте афф. ссылку через индекс, типа
www.site.com/?aff=vasya
И разбирайте скриптом+.htaccess

Проясните пожалуйста.

Если основной файл index.html а такая же ссылка это же реально

www.site.com/index.php

Неужели гугл не распознает это?