Головоломка (VSM и dimensionality reduction)

123
mustafa
На сайте с 28.10.2005
Offline
202
#11

PHWizard, ок. Теория в тумане, но истина где-то рядом. А теперь не мог бы ты рассказать на примере вот этого топика, как алгоритм поймет о чем здесь шла речь и выделит основную тематику? :)

p.s. я против изобретения исукусственного интелекта... Все равно это будет просто тупая машина с 0 и 1.

S
На сайте с 18.11.2005
Offline
32
#12
PHWizard:
Т.е. 439 измерений нужно чтобы спроецировать несчастные 3 точки?

Да, и при этом это 3 любые точки. Т.е. вы как бы освобождаетесь от конкретной выборки и можете гарантировать это для любого входа.

PHWizard:
Например, система индексирует много документов, и там встречается: "Маша пошла по грибы", "Петя пошел по грибы", "Маша почистила зубы", "Петя почистил зубы". В ходе уменьшения размерности Маша и Петя проецируются рядом, а идти по грибы и чистить зубы - в другом месте, а расстояния между ними отражают насколько эти понятия связаны.
Vyacheslav Tikhonov:
Получить пространство признаков (знаний) вполне реально, если подобрать правильную метрику, то есть определить, какие признаки объекта (ключевые слова в документе) являются смысловыми.
Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).

Сложно найти адекватную неформальной задаче формальную модель исходных данных. Когда (если) она найдена, то в общем-то уменьшение размерности носит чисто технический характер и служит только лишь для экономии ресурсов (как верно отмечено, это похоже на сжатие с потерями), но без "ореола" исскуственного интелекта.

VT
На сайте с 27.01.2001
Offline
130
#13
Когда (если) она найдена, то в общем-то уменьшение размерности носит чисто технический характер и служит только лишь для экономии ресурсов (как верно отмечено, это похоже на сжатие с потерями), но без "ореола" исскуственного интелекта.

Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.

P
На сайте с 05.12.2004
Offline
121
#14
sokoloff:
Формула, например, отсюда "An elementary proof of the Johnson-Lindenstrauss Lemma".

А откуда 4? Там ведь формула О(log(n)/epsilon^2)

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)
P
На сайте с 05.12.2004
Offline
121
#15
mustafa:
PHWizard, ок. Теория в тумане, но истина где-то рядом. А теперь не мог бы ты рассказать на примере вот этого топика, как алгоритм поймет о чем здесь шла речь и выделит основную тематику? :)

На основе одного топика - нет. А если с ним будут проиндексированы все топики, тогда может быть. Т.е. компьютер, конечно, не начнет понимать, о чем речь, но сможет понимать насколько этот топик отличается от другого, а все они вместе от третьего.

Погодите, я тут эксперимент провожу, насколько увеличение количества входной инфы увеличит точность расстановки, о результатах напишу.

Просто у меня поисковик на пхп и медленно страницы индексирует.

mustafa:

p.s. я против изобретения исукусственного интелекта... Все равно это будет просто тупая машина с 0 и 1.

:)

P
На сайте с 05.12.2004
Offline
121
#16
sokoloff:
Да, и при этом это 3 любые точки. Т.е. вы как бы освобождаетесь от конкретной выборки и можете гарантировать это для любого входа.

Ну отлично что решение нашлось. А то мне некоторые математики говорили что решения нет или что каждый раз нужно решать в частном случае.

sokoloff:

Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).

А как же теорема компактности и т.п.?

P
На сайте с 05.12.2004
Offline
121
#17
Vyacheslav Tikhonov:
Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.

Ага, восстановить или найти. Эти все вещи рядом стоят, KR (knowledge representation), NLP (natural language processing), AI, сжатие данных. Если будет прорыв в одной сфере, это потянет за собой остальные.

S
На сайте с 18.11.2005
Offline
32
#18
PHWizard:
А откуда 4? Там ведь формула О(log(n)/epsilon^2)

Ну 4-ка там спрятана под O(), см. формулировку Theorem 2.1

PHWizard:
sokoloff:
Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).
А как же теорема компактности и т.п.?

Она не теорема, а гипотеза. И выражает лишь необоснованое предположение (надежду), что они попадут рядом, если удачно подобрать признаки. Но на самом деле это не обязано быть и часто не бывает так в реальности. Если вы докажете, что выбранные признаки отображают "компактные" множества в "компактные" (т.е. близкие точки в близкие, далекие в далекие и т.д. с четким определением расстояния), то тогда это можно утверждать.

P
На сайте с 05.12.2004
Offline
121
#19
sokoloff:
Ну 4-ка там спрятана под O(), см. формулировку Theorem 2.1

Упс, проглядел.

sokoloff:

Она не теорема, а гипотеза. И выражает лишь необоснованое предположение (надежду), что они попадут рядом, если удачно подобрать признаки. Но на самом деле это не обязано быть и часто не бывает так в реальности. Если вы докажете, что выбранные признаки отображают "компактные" множества в "компактные" (т.е. близкие точки в близкие, далекие в далекие и т.д. с четким определением расстояния), то тогда это можно утверждать.

Ага, я читал что тут раз на раз не приходится. Примерно 50 на 50 (с) :)

Не знаю как это доказывать кроме как экспериментом. Ну а тут дрова будут.. Допустим, 700 документов, размерность вектора 2000, размерность пространства 2620 (Epsilon = 10%), пусть даже нейронка 3х3х3х3..

Это будет 1e+1250 нейронов, на каждой итерации для каждого считать 2000 весов и еще расстояния вычислять. Тут никакое перемножение на случайные матрицы, параллельные вычисления, динамический размер нейронки и прочие ухищрения не помогут. У меня 3D тормозит, а тут 2620D. Можно, конечно, использовать другие способы кроме SOM, но IMHO они все похожи.

S
На сайте с 18.11.2005
Offline
32
#20
PHWizard:
700 документов, размерность вектора 2000, размерность пространства 2620 (Epsilon = 10%), пусть даже нейронка 3х3х3х3..

Я все-таки не стал бы делать выводы для SOM, исходя из размерности, полученной по JL-лемме. Все-таки это разные вещи, может какое-то ощущение порядка величин может и могут дать для друг друга, не знаю.

123

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий