Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет - Поисковые технологии

Поисковая машина нового поколения

al1734 · 2003-08-22T13:14:33.0000000Z

Итак Новая тема. Пытаемся обсудить проблему создания, необходимости, рентабельности и т.д. Поисковой машины нового поколения.

[Удален]

9 марта 2004, 14:08

#71

Как писал Vyacheslav Tikhonov

Не очень понятна математическая модель.
То есть алгоритм умеет определять тематическую направленность (фокус любого документа) и на ходу создавать пространство признаков для этого фокуса, в котором и производится поиск?

Да. Даже более универсально, чем вы себе представляете. Поиск ответов идёт на том языке, что чуть раньше назвал сутью информации, т.е. язык обработки не имеет значения.

А чуть ранее вы писали очень близкие вещи:

Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко.

Грубо говоря, это уже реализовано.

Помощь в фильтрации ботов Защита от ботов для Сколько лет нужно не

VT

130

Vyacheslav Tikhonov

9 марта 2004, 14:23

#72

А чуть ранее вы писали очень близкие вещи

Я полагаюсь в основном на прикладной анализ данных. На чем основан Ваш алгоритм?

Грубо говоря, это уже реализовано

Возможно, я не слишком далек, но пока никак не могу понять, что же реально реализовано. Пока вижу, что все очень идеализировано :)

Алгоритм настолько хорош, что в нем нет слабых мест?

Google Updates - апдейты Подскажите пожалуйста по подклейке Как продвигатся по всех

T

9

taras

9 марта 2004, 14:38

#73

Опоздал я конечно уже, но все таки вставлю свои 5 копеек.

В общем делать поисковую систему нового поколения всегда можно.

Но надо хорошо себе представлять в чем новое поколения качественно будет лучше старого. Если вы не знаете то и делать не надо, потому что не получится.

А если знаете, тогда вперед :))

Вот мой сайтик chtopodarit.ru как раз и есть поисковая система нового поколения.

У всех старых есть недостаток - можно найти только то что ищещь.

А вот так чтобы "пойти туда, не знаю куда, найти то, не знаю что"

поисковики не умеют.

Есть на эту тему штуки, например dzen.yandex.ru но они достаточно слабенькие, то есть они не то, что надо находят :)

В рамках подарков моя система отлично работает, она действительно находит человеку то что он ищет, но не знает об этом 8-))

Если, кстати захочет делать dzen-поиск нового поколения, могу помочь советами :))

Ну а если не сегментировать рынок и пытаться обогнать общие поисковики, то можно даже не рыпаться. :-))

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

9 марта 2004, 16:09

#74

Как писал Maxim Golubev

-------
Как писал Vyacheslav Tikhonov
Сложность задачи я прекрасно представляю. Рассчитать близости каждого объекта каждому задача, конечно, фантастическая, но кому сейчас легко.
-------

Грубо говоря, это уже реализовано.

Ну в лучшем случае - какой-то кластерный алгоритм -

среди лучших представителей, например, NeuroK.

Такие методы неплохо дают кластеры верхних уровней (в лучшем случае несколько десятков),

однако, чем больше коллекция, и чем более "переферичен" запрос

- тем больше шума - кластеры следующих уровней обычно выглядят

ужасно.

Все разваливается, если в запросе соединяются элементы, входящие

во многие кластеры.

Например, попробуйте "белый человек", "белый билет",...

На запрос "черный человек" возвращаются документы про "черные метки", "черные дыры", "черное пятно" - потому что какие-то люди там тоже есть.

Поэтому вопрос об универсальности, оптимальности сей "чудо-машины" как минимум открыт.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

9 марта 2004, 16:21

#75

BVD, хороший ты пример привел. Если ты заметил, то в результатах поиска выдаётся некое КК, так вот оно прямо пропорционально расстоянию от истинного ответа на вопрос пользователя. КК=[1;0]. Т.е. если КК=1, то это на 100% ответ на вопрос. В природе КК=1 - не существует. В твоём примере, система выдала самый релевантный ответ с КК=4.4*10-5, что говорит о том, что по запрашиваемой тематике у неё просто нет ответа. Дала что смогла.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

9 марта 2004, 16:39

#76

Как писал Maxim Golubev
BVD, хороший ты пример привел. Если ты заметил, то в результатах поиска выдаётся некое КК, так вот оно прямо пропорционально расстоянию от истинного ответа на вопрос пользователя. КК=[1;0]. Т.е. если КК=1, то это на 100% ответ на вопрос. В природе КК=1 - не существует. В твоём примере, система выдала самый релевантный ответ с КК=4.4*10-5, что говорит о том, что по запрашиваемой тематике у неё просто нет ответа. Дала что смогла.

Ну и что?

Обычная в этой системе ситуация, что коэффициент быстро падает,

и невозможно по нему определить - релевантен элемент хвоста запросу или нет.

Запрос "черная дыра" - 2 и 3 документы нерелевантны -

следующий релевантен, при том что "расстояние" на три порядка меньше/больше - какая же вера в эти коэффициенты?

В общем - прежде чем говорить о супер-пупер технологии - попробуйте

превзойти (аккуратно посчитав полноту-точность) обычный tf*idf.

Вопросы представителю Яндекса Яндекс улучшает семейный поиск Google Updates - апдейты

[Удален]

9 марта 2004, 16:48

#77

Как писал bvd

В общем - прежде чем говорить о супер-пупер технологии - попробуйте
превзойти (аккуратно посчитав полноту-точность) обычный tf*idf.

1) Я не говорил, что она "супер-пупер", я говорил, что это нечто новое.

2) Сейчас расстояние считается только по 1 критерию, кол-во критериев стремится к бесконечности. Чем больше критериев, тем больше загрузка машины. Что себе я сейчас позволить не могу. Пока выдаётся самый быстрый и самый простой просчёт. Поиск показался не как поиск, а как результат работы алгоритма построенного на теории о информационном поле.

3) Согласен, не всё идеально, надо работать, работать и работать...

4) NB. В отличие от других алгоритмов, в этом, чем больше данных - тем он умнее становиться, как мозг у человека. Пока доказать не могу, теоретическое предположение есть. Идёт усердная работа в этом направлении.

Google Updates - апдейты Упал доход Гудбай, "вебмастера"! DesignerGPT пришел

B

42

bvd

9 марта 2004, 17:02

#78

Как писал Maxim Golubev

Я не говорил, что она "супер-пупер", я говорил, что это нечто новое.

Тут уже сомневались насчет "нечто новое".

Сомнения будут и далее при таком уровне объяснения

- "информационное поле", "информационная вселенная",

"предсказание будущего" - а почему, например, не "семантический анализ", "искусственный разум", "чудо в перьях",

"фокус-покус"?

Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет.

Это не умалит достижений, наоборот, УСИЛИТ, если сделано

днйствительно что-то хорошее.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

[Удален]

9 марта 2004, 17:23

#79

Как писал bvd

Сомнения будут и далее при таком уровне объяснения
- "информационное поле", "информационная вселенная",
"предсказание будущего" - а почему, например, не "семантический анализ", "искусственный разум", "чудо в перьях",
"фокус-покус"?

Попробуйте найти аналоги - просто НЕ ВЕРЮ, что их нет.
Это не умалит достижений, наоборот, УСИЛИТ, если сделано
днйствительно что-то хорошее.

Разумеется есть, вот например пресс-релиз фирмы XEROX http://www.xerox.ru/themes/basic/releases-index.asp?folder=904 и название то какое: "Xerox изобрел искусственный интеллект..."

Я ставлю первостепенную задачу не удовлетворение сомневающихся, а достижении результата для меня, на основе моей теории. Не вижу смысла дальше разводить демагогию типа ново не ново. Если есть вопросы конкретные по технологии - спрашивайте. С радостью выслушаю дельные замечания и пожелания.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

9 марта 2004, 17:32

#80

Как писал Maxim Golubev

Не вижу смысла дальше разводить демагогию типа ново не ново.

Ну в общем так.

Текущая реализация ни в чем не убеждает + стандартную процедуру

проверки проходить не желаете.

Уверен, что это не ново.

Поэтому предлагается доказывать свою правоту рекламирующему свой ресурс.

Как писал Maxim Golubev

Если есть вопросы конкретные по технологии - спрашивайте.

Если все знаете - зачем чье-то мнение?

А я лучше почитаю

здесь

Вывод на КредитЕвропаБанк Почему продают и покупают Вакансия: Россия, удаленка, Middle

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Поисковая машина нового поколения