Это не теорема, а гипотеза - Поисковые технологии - Практические вопросы оптимизации

202

mustafa

23 января 2007, 12:28

#11

PHWizard, ок. Теория в тумане, но истина где-то рядом. А теперь не мог бы ты рассказать на примере вот этого топика, как алгоритм поймет о чем здесь шла речь и выделит основную тематику? :)

p.s. я против изобретения исукусственного интелекта... Все равно это будет просто тупая машина с 0 и 1.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

32

sokoloff

23 января 2007, 13:16

#12

PHWizard:
Т.е. 439 измерений нужно чтобы спроецировать несчастные 3 точки?

Да, и при этом это 3 любые точки. Т.е. вы как бы освобождаетесь от конкретной выборки и можете гарантировать это для любого входа.

PHWizard:
Например, система индексирует много документов, и там встречается: "Маша пошла по грибы", "Петя пошел по грибы", "Маша почистила зубы", "Петя почистил зубы". В ходе уменьшения размерности Маша и Петя проецируются рядом, а идти по грибы и чистить зубы - в другом месте, а расстояния между ними отражают насколько эти понятия связаны.

Vyacheslav Tikhonov:
Получить пространство признаков (знаний) вполне реально, если подобрать правильную метрику, то есть определить, какие признаки объекта (ключевые слова в документе) являются смысловыми.

Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).

Сложно найти адекватную неформальной задаче формальную модель исходных данных. Когда (если) она найдена, то в общем-то уменьшение размерности носит чисто технический характер и служит только лишь для экономии ресурсов (как верно отмечено, это похоже на сжатие с потерями), но без "ореола" исскуственного интелекта.

VT

130

Vyacheslav Tikhonov

24 января 2007, 13:47

#13

Когда (если) она найдена, то в общем-то уменьшение размерности носит чисто технический характер и служит только лишь для экономии ресурсов (как верно отмечено, это похоже на сжатие с потерями), но без "ореола" исскуственного интелекта.

Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.

P

121

PHWizard

24 января 2007, 15:46

#14

sokoloff:
Формула, например, отсюда "An elementary proof of the Johnson-Lindenstrauss Lemma".

А откуда 4? Там ведь формула О(log(n)/epsilon^2)

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)

P

121

PHWizard

24 января 2007, 15:53

#15

mustafa:
PHWizard, ок. Теория в тумане, но истина где-то рядом. А теперь не мог бы ты рассказать на примере вот этого топика, как алгоритм поймет о чем здесь шла речь и выделит основную тематику? :)

На основе одного топика - нет. А если с ним будут проиндексированы все топики, тогда может быть. Т.е. компьютер, конечно, не начнет понимать, о чем речь, но сможет понимать насколько этот топик отличается от другого, а все они вместе от третьего.

Погодите, я тут эксперимент провожу, насколько увеличение количества входной инфы увеличит точность расстановки, о результатах напишу.

Просто у меня поисковик на пхп и медленно страницы индексирует.

mustafa:

p.s. я против изобретения исукусственного интелекта... Все равно это будет просто тупая машина с 0 и 1.

:)

P

121

PHWizard

24 января 2007, 15:58

#16

sokoloff:
Да, и при этом это 3 любые точки. Т.е. вы как бы освобождаетесь от конкретной выборки и можете гарантировать это для любого входа.

Ну отлично что решение нашлось. А то мне некоторые математики говорили что решения нет или что каждый раз нужно решать в частном случае.

sokoloff:

Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).

А как же теорема компактности и т.п.?

P

121

PHWizard

24 января 2007, 16:05

#17

Vyacheslav Tikhonov:
Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.

Ага, восстановить или найти. Эти все вещи рядом стоят, KR (knowledge representation), NLP (natural language processing), AI, сжатие данных. Если будет прорыв в одной сфере, это потянет за собой остальные.

S

32

sokoloff

25 января 2007, 10:04

#18

PHWizard:
А откуда 4? Там ведь формула О(log(n)/epsilon^2)

Ну 4-ка там спрятана под O(), см. формулировку Theorem 2.1

PHWizard:

sokoloff:
Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).

А как же теорема компактности и т.п.?

Она не теорема, а гипотеза. И выражает лишь необоснованое предположение (надежду), что они попадут рядом, если удачно подобрать признаки. Но на самом деле это не обязано быть и часто не бывает так в реальности. Если вы докажете, что выбранные признаки отображают "компактные" множества в "компактные" (т.е. близкие точки в близкие, далекие в далекие и т.д. с четким определением расстояния), то тогда это можно утверждать.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

P

121

PHWizard

25 января 2007, 14:31

#19

sokoloff:
Ну 4-ка там спрятана под O(), см. формулировку Theorem 2.1

Упс, проглядел.

sokoloff:

Она не теорема, а гипотеза. И выражает лишь необоснованое предположение (надежду), что они попадут рядом, если удачно подобрать признаки. Но на самом деле это не обязано быть и часто не бывает так в реальности. Если вы докажете, что выбранные признаки отображают "компактные" множества в "компактные" (т.е. близкие точки в близкие, далекие в далекие и т.д. с четким определением расстояния), то тогда это можно утверждать.

Ага, я читал что тут раз на раз не приходится. Примерно 50 на 50 (с) :)

Не знаю как это доказывать кроме как экспериментом. Ну а тут дрова будут.. Допустим, 700 документов, размерность вектора 2000, размерность пространства 2620 (Epsilon = 10%), пусть даже нейронка 3х3х3х3..

Это будет 1e+1250 нейронов, на каждой итерации для каждого считать 2000 весов и еще расстояния вычислять. Тут никакое перемножение на случайные матрицы, параллельные вычисления, динамический размер нейронки и прочие ухищрения не помогут. У меня 3D тормозит, а тут 2620D. Можно, конечно, использовать другие способы кроме SOM, но IMHO они все похожи.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

S

32

sokoloff

26 января 2007, 16:15

#20

PHWizard:
700 документов, размерность вектора 2000, размерность пространства 2620 (Epsilon = 10%), пусть даже нейронка 3х3х3х3..

Я все-таки не стал бы делать выводы для SOM, исходя из размерности, полученной по JL-лемме. Все-таки это разные вещи, может какое-то ощущение порядка величин может и могут дать для друг друга, не знаю.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Головоломка (VSM и dimensionality reduction)