Поисковая машина нового поколения

[Удален]
#71
Как писал Vyacheslav Tikhonov

Не очень понятна математическая модель.
То есть алгоритм умеет определять тематическую направленность (фокус любого документа) и на ходу создавать пространство признаков для этого фокуса, в котором и производится поиск?

Да. Даже более универсально, чем вы себе представляете. Поиск ответов идёт на том языке, что чуть раньше назвал сутью информации, т.е. язык обработки не имеет значения.

А чуть ранее вы писали очень близкие вещи:


Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко.

Грубо говоря, это уже реализовано.

VT
На сайте с 27.01.2001
Offline
130
#72
А чуть ранее вы писали очень близкие вещи

Я полагаюсь в основном на прикладной анализ данных. На чем основан Ваш алгоритм?

Грубо говоря, это уже реализовано

Возможно, я не слишком далек, но пока никак не могу понять, что же реально реализовано. Пока вижу, что все очень идеализировано :)

Алгоритм настолько хорош, что в нем нет слабых мест?

T
На сайте с 09.03.2004
Offline
9
#73

Опоздал я конечно уже, но все таки вставлю свои 5 копеек.

В общем делать поисковую систему нового поколения всегда можно.

Но надо хорошо себе представлять в чем новое поколения качественно будет лучше старого. Если вы не знаете то и делать не надо, потому что не получится.

А если знаете, тогда вперед :))

Вот мой сайтик chtopodarit.ru как раз и есть поисковая система нового поколения.

У всех старых есть недостаток - можно найти только то что ищещь.

А вот так чтобы "пойти туда, не знаю куда, найти то, не знаю что"

поисковики не умеют.

Есть на эту тему штуки, например dzen.yandex.ru но они достаточно слабенькие, то есть они не то, что надо находят :)

В рамках подарков моя система отлично работает, она действительно находит человеку то что он ищет, но не знает об этом 8-))

Если, кстати захочет делать dzen-поиск нового поколения, могу помочь советами :))

Ну а если не сегментировать рынок и пытаться обогнать общие поисковики, то можно даже не рыпаться. :-))

B
На сайте с 02.09.2002
Offline
42
bvd
#74
Как писал Maxim Golubev

-------
Как писал Vyacheslav Tikhonov
Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко.
-------

Грубо говоря, это уже реализовано.

Ну в лучшем случае - какой-то кластерный алгоритм -

среди лучших представителей, например, NeuroK.

Такие методы неплохо дают кластеры верхних уровней (в лучшем случае несколько десятков),

однако, чем больше коллекция, и чем более "переферичен" запрос

- тем больше шума - кластеры следующих уровней обычно выглядят

ужасно.

Все разваливается, если в запросе соединяются элементы, входящие

во многие кластеры.

Например, попробуйте "белый человек", "белый билет",...

На запрос "черный человек" возвращаются документы про "черные метки", "черные дыры", "черное пятно" - потому что какие-то люди там тоже есть.

Поэтому вопрос об универсальности, оптимальности сей "чудо-машины" как минимум открыт.

[Удален]
#75

BVD, хороший ты пример привел. Если ты заметил, то в результатах поиска выдаётся некое КК, так вот оно прямо пропорционально расстоянию от истинного ответа на вопрос пользователя. КК=[1;0]. Т.е. если КК=1, то это на 100% ответ на вопрос. В природе КК=1 - не существует. В твоём примере, система выдала самый релевантный ответ с КК=4.4*10-5, что говорит о том, что по запрашиваемой тематике у неё просто нет ответа. Дала что смогла.

B
На сайте с 02.09.2002
Offline
42
bvd
#76
Как писал Maxim Golubev
BVD, хороший ты пример привел. Если ты заметил, то в результатах поиска выдаётся некое КК, так вот оно прямо пропорционально расстоянию от истинного ответа на вопрос пользователя. КК=[1;0]. Т.е. если КК=1, то это на 100% ответ на вопрос. В природе КК=1 - не существует. В твоём примере, система выдала самый релевантный ответ с КК=4.4*10-5, что говорит о том, что по запрашиваемой тематике у неё просто нет ответа. Дала что смогла.

Ну и что?

Обычная в этой системе ситуация, что коэффициент быстро падает,

и невозможно по нему определить - релевантен элемент хвоста запросу или нет.

Запрос "черная дыра" - 2 и 3 документы нерелевантны -

следующий релевантен, при том что "расстояние" на три порядка меньше/больше - какая же вера в эти коэффициенты?

В общем - прежде чем говорить о супер-пупер технологии - попробуйте

превзойти (аккуратно посчитав полноту-точность) обычный tf*idf.

[Удален]
#77
Как писал bvd

В общем - прежде чем говорить о супер-пупер технологии - попробуйте
превзойти (аккуратно посчитав полноту-точность) обычный tf*idf.

1) Я не говорил, что она "супер-пупер", я говорил, что это нечто новое.

2) Сейчас расстояние считается только по 1 критерию, кол-во критериев стремится к бесконечности. Чем больше критериев, тем больше загрузка машины. Что себе я сейчас позволить не могу. Пока выдаётся самый быстрый и самый простой просчёт. Поиск показался не как поиск, а как результат работы алгоритма построенного на теории о информационном поле.

3) Согласен, не всё идеально, надо работать, работать и работать...

4) NB. В отличие от других алгоритмов, в этом, чем больше данных - тем он умнее становиться, как мозг у человека. Пока доказать не могу, теоретическое предположение есть. Идёт усердная работа в этом направлении.

B
На сайте с 02.09.2002
Offline
42
bvd
#78
Как писал Maxim Golubev

Я не говорил, что она "супер-пупер", я говорил, что это нечто новое.

Тут уже сомневались насчет "нечто новое".

Сомнения будут и далее при таком уровне объяснения

- "информационное поле", "информационная вселенная",

"предсказание будущего" - а почему, например, не "семантический анализ", "искусственный разум", "чудо в перьях",

"фокус-покус"?

Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет.

Это не умалит достижений, наоборот, УСИЛИТ, если сделано

днйствительно что-то хорошее.

[Удален]
#79
Как писал bvd

Сомнения будут и далее при таком уровне объяснения
- "информационное поле", "информационная вселенная",
"предсказание будущего" - а почему, например, не "семантический анализ", "искусственный разум", "чудо в перьях",
"фокус-покус"?


Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет.
Это не умалит достижений, наоборот, УСИЛИТ, если сделано
днйствительно что-то хорошее.

Разумеется есть, вот например пресс-релиз фирмы XEROX http://www.xerox.ru/themes/basic/releases-index.asp?folder=904 и название то какое: "Xerox изобрел искусственный интеллект..."

Я ставлю первостепенную задачу не удовлетворение сомневающихся, а достижении результата для меня, на основе моей теории. Не вижу смысла дальше разводить демагогию типа ново не ново. Если есть вопросы конкретные по технологии - спрашивайте. С радостью выслушаю дельные замечания и пожелания.

B
На сайте с 02.09.2002
Offline
42
bvd
#80
Как писал Maxim Golubev

Не вижу смысла дальше разводить демагогию типа ново не ново.

Ну в общем так.

Текущая реализация ни в чем не убеждает + стандартную процедуру

проверки проходить не желаете.

Уверен, что это не ново.

Поэтому предлагается доказывать свою правоту рекламирующему свой ресурс.

Как писал Maxim Golubev

Если есть вопросы конкретные по технологии - спрашивайте.

Если все знаете - зачем чье-то мнение?

А я лучше почитаю

здесь

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий