Поисковая машина нового поколения

[Удален]
#91

В этом форуме при попытке передать (поделиться) своими идеями я получал только критические замечания. Не буду спорить, многие из них верны. Уж не однократно серъёзно задумывался, может и действительно в корне ошибаюсь. И тут, вижу вот это: наш уважаемый администратор сайта публикует статью Станислава Тактаева, в которой описано всё то, о чём я говорил, только более грамотно. Цитирую:

Целью данной работы является выработка теоретического подхода к математическому анализу смысла понятий как объектов окружающего мира и, с определенным уровнем абстракции, выражаемых в человеческих языках, путем их систематизации в многомерном пространстве ( Пространстве понятий) и разработка математического аппарата преобразования (действия над) понятиями - алгебры понятий.

Ну я это дело назвал N-мерным информационным пространством, но суть одна! О чём я писал год назад: http://213.33.170.91/about.htm

Все мы в тумане, ушедший в сторону от толпы может оказаться ближе всех к свету.

B
На сайте с 02.09.2002
Offline
42
bvd
#92
Как писал Maxim Golubev
В этом форуме при попытке передать (поделиться) своими идеями я получал только критические замечания. Не буду спорить, многие из них верны. Уж не однократно серъёзно задумывался, может и действительно в корне ошибаюсь. И тут, вижу вот это: наш уважаемый администратор сайта публикует статью Станислава Тактаева, в которой описано всё то, о чём я говорил, только более грамотно. Цитирую:

Целью данной работы является выработка теоретического подхода к математическому анализу смысла понятий как объектов окружающего мира и, с определенным уровнем абстракции, выражаемых в человеческих языках, путем их систематизации в многомерном пространстве ( Пространстве понятий) и разработка математического аппарата преобразования (действия над) понятиями - алгебры понятий.

Ну я это дело назвал N-мерным информационным пространством, но суть одна! О чём я писал год назад: http://213.33.170.91/about.htm

"математический анализ смысла понятий" - как минимум, неудачный термин, следуя красивой формулировке которого можно потерять много времени:

1) математический аппарат смысла понятий уже разработан (см. Formal Concept Analysis)

2) ничего конструктивного там доказать не удалось. Более того доказана "антиконструктивная" теорема, смысл которой, что если есть пространство из N признаков, то существует 2**N понятий

3) в лингвистике для описания "алгебры понятий" рассматривался т.н. "компонентный анализ значения". Так вот, "выяснилось", что большиство "понятий" в языке не раскладываются на компоненты (практически всегда имеет место некоторое "облако смысла")

IMHO построение общей теории не очень продуктивно, гораздо полезнее ограничить то, что Вы называете "смыслом" в конкретной предметной области тогда:

а) громких заявлений по давно уже пройденным вещам будет меньше

б) может и результаты интересные получатся

А статей на эту тему написано много, особенно с таким вот впечатляющим списком литературы...

Причем, сама статья, конечно, хороша как ликбез .

B
На сайте с 02.09.2002
Offline
42
bvd
#93
Как писал Maxim Golubev

Уж не однократно серъёзно задумывался, может и действительно в корне ошибаюсь.

Никто так не утверждает. Просто все "немного" не так.

[Удален]
#94

В указанной выше статье есть несколько недочётов или не договорок. Мне это говорит о том, что автор не подходил в плотную к реализации своей теории на практике. Например, если каждое понятие задаётся N координатами(расстояние от тематических областей), где N имеет порядок 1,5 млн. Технически это можно вычислять, но не разумно. И не работает, если у тематической области нет явного центра или его тяжело вычислить, т.к. пространство тематической области ещё не сформировано.

Есть ещё принципиальная вещь, в которой я не согласен в корне. В смысл N координат (расстояний от тематических осей) закралась неразбериха. Дело в том, что всё деление на тематики - это выдумки человека, и делает это он аппаратом, которым владеет, т.е. описывает группы опять же СЛОВАМИ, которые в свою очередь должны занимать тоже определённое место в N мерном информационном пространстве. Разумеется, можно не высчитывать все 1,5 млн координат, 90% можно отбросить, т.к. имеют малое значение и малый смысл в решающем результате. Но тогда мы теряем точность в определение координаты смысла обрабатываемой фразы.

Я много размышлял над этим. Если теоретически представить, что такое пространство имеет место быть. То наилучший способ вычислять координату(местонахождение) это строить путь по простым 2-х мерным пространствам. Путь и вектор - одно и тоже. Например, до определённого понятия будет 5-ть векторов, а до другого 15. Таким способом можно задавать координаты с точностью 100%. Это очень простое решение, но и наиболее эффективное, как мне кажется.

Другая проблема, над которой я сейчас работаю, это как представить конкретные слова векторами и в какой последовательности строить полученную группу векторов из группы слов(например, из предложения). Порядок построения уже меняет конечную координату, впрочем, как и смысл фразы, если менять слова местами.

В завершении я хотел бы предложить заинтересованным людям организовать группу по данному направлению и вести совместную теоретическую и практическую разработку. Что-то у меня уже есть, но одному очень тяжело продвигаться.

B
На сайте с 02.09.2002
Offline
42
bvd
#95
Как писал Maxim Golubev
.

Я много размышлял над этим. Если теоретически представить, что такое пространство имеет место быть. То наилучший способ вычислять координату(местонахождение) это строить путь по простым 2-х мерным пространствам. Путь и вектор - одно и тоже. Например, до определённого понятия будет 5-ть векторов, а до другого 15. Таким способом можно задавать координаты с точностью 100%. Это очень простое решение, но и наиболее эффективное, как мне кажется.

Рекомендую почитать литературу по "репертуарным решеткам" и LSI (Latent Semantic Indexing).

Как писал Maxim Golubev

В завершении я хотел бы предложить заинтересованным людям организовать группу по данному направлению и вести совместную теоретическую и практическую разработку. Что-то у меня уже есть, но одному очень тяжело продвигаться.

Если у Вас серьезный интерес к проблеме - его надо переводить в офф-лайн. Можно поездить на специализированные конференции (например, RCDL, КИИ, которые скоро будут) и пообщаться - переписываться подробно слишком тяжело.

[Удален]
#96

Семь месяцев назад я описал (Сообщение #763454 ) своё предстовление о развитии поисковых технологий, на что мне уважаемые аппоненты ответили:

Как писал Ashmanov
Вы рисуете не светлое будущее, а какую-то антиутопию.

Ну и вопрос про локальный поиск - у вас много друзей, которым вы готовы дать свободно шарить по вашему диску? Куда бот вынесет? А таких, которые дадут шарить вам? Что-то я сомневаюсь.

Сегодня читаю новость на этом сайте:

Project Computing выпустила Google Desktop Proxy. Эта утилита на основе Java обеспечивает другим компьютерам удаленный доступ к результатам локального поиска Google на компьютере пользователя, сообщает ResearchBuzz.

/ru/news/5510

Я очень рад, что первый пункт моего предвидения сбылся.

VT
На сайте с 27.01.2001
Offline
130
#97
Сегодня читаю новость на этом сайте

Да, в общем, и так было понятно, что локальный поиск будет как-то развиваться. Microsoft вон уже который год рассказывает о интегрированном поиске в Longhorn.

Вопрос в том, станет ли эта технология массовой.

Я очень рад, что первый пункт моего предвидения сбылся.

А еще через 46 лет роботы получат равные с людьми права. ;)

Ashmanov
На сайте с 21.11.2000
Offline
66
#98
Как писал Maxim Golubev
Project Computing выпустила Google Desktop Proxy. Эта утилита на основе Java обеспечивает другим компьютерам удаленный доступ к результатам локального поиска Google на компьютере пользователя, сообщает ResearchBuzz.
/ru/news/5510

Я очень рад, что первый пункт моего предвидения сбылся.

Максим, у Вас удивительная манера выражаться и мыслить нечётко. Если так мыслить, то при сравнении двух нечётких утверждений всегда будет хоть какое-то совпадение. И Вы всегда будете провидцем.

Ждёт тебя, золотце, дальняя дорога, казённый дом и трефовый король... И червовая дама ждёт почти каждого из нас.

Скажем, можно сказать, что через некоторое время компьютерные технологии ещё более разовьются. И поиском будет пользоваться ещё больше людей, в том числе локальным. Каково предвидение? Кто со мной поспорит, ну-ка?

Должен вам сказать, что системы, индексирующие пользовательские компьютеры, а также поисковые P2P-сети, поисковые клиенты с экспортом новостей - далеко не новость.

А объединение каталогов для хранения файлов - это вообще уже древняя история.

Ну и что следует из того, что некая компания выпустила ещё один клиент для такого экспорта?

А Вы ведь утверждали, что это - столбовое направление развития поисковых технологий.

Ещё раз спрошу - Вы мне дадите пошарить поиском по Вашему диску? Нет? А тогда кому дадите? Подруге? Маме?

И как такие малые очаги совместного поиска сольются в глобальный поиск, если я не пущу никого в свою поисковую вотчину и Вы - тоже?

Я-то, честно говоря, не захочу и сам шарить по чужим компьютерам. Зачем они мне? И так поиск в Интернете - сплошной мусор, а тут ещё бесконченые дубли документов от разных чайников.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
[Удален]
#99
Как писал Ashmanov
Ещё раз спрошу - Вы мне дадите пошарить поиском по Вашему диску? Нет? А тогда кому дадите? Подруге? Маме?
И как такие малые очаги совместного поиска сольются в глобальный поиск, если я не пущу никого в свою поисковую вотчину и Вы - тоже?

Если у человека нет ограничения на трафик и не отягощает его стоимость(например, он безлимитный) то люди с радостью будут расшаривать ресурсы для всех, в том числе и для вас. Такая ситуация сейчас в локальных сетях, ведь там не считают стоимость внутреннего трафика. Такая ситуация будет и в рунете, когда люди не будут задумываться о стоимости трафика. Сейчас тенденцию задаём МТУ, со своими революционными тарифами. Думаю что дальнейшее обсуждение этой темы не существенно для познания.

Пользуясь случаем, хотел задать вам вопрос. Как-то вы описывали 3-и метода тематической классификации (<a href=;threadid=3850>сообщение #34516</a>). В новостях о вашей последней разработке(поисковик "новотека") вы упомянули что там есть "распознователь тем". Собвственно вопрос, по какому принципу вы его реализовали? Если разработка основывалась на алгоритме Спамтест-а, то как вы проставляли веса у терминов и какой порядок(кол-во) терминов вы предполагаете использовать для достижения максимального качества тематической классификации ?

lagif
На сайте с 15.12.2004
Offline
30
#100

Если связывать ИИ с поисковой машиной нового поколения, начинать придется, пожалуй, не с софта, а с харда.

Для нейросети, хотя бы крайне отдаленно похожей по соображаловке на человеческий ум, а также способной выдать приблизительно нужный результат, не хватит, наверняка, пары десятков серверов.

В конечном счете, можно смело утверждать, что никогда эта самая НС идеальной не станет, сколько новых ПЛИС и процессоров с рекордными скоростями и количеством транзисторов на кристалле ты в нее ни втюхивай

(тем более 😂, в терминах нейросетей из всех многочисленных подводных камней, кроме слепого тыканья, существует такое понятие как "переучивание" - все равно, что сотворить сумасшедшего профессора, простите если покривила правдой во имя красного словца)...

:p Если, конечно, я не преувеличиваю возможности человеческого интеллекта :p

Извините, если в чем-то повторяюсь, но семь страниц полемики я, возможно, читала не слишком внимательно...

p.s.

Ashmanov,

У вас замечательный лит. стиль :)

Это тоже пройдет...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий