Головоломка (VSM и dimensionality reduction)

PHWizard · 2007-01-19T15:29:29.0000000Z

Есть три точки, A, B и С. Расстояние между ними должно быть такое (к примеру): A - B: 10 A - C: 30 B - C: 5 В скольки измерениях можно выставить точки с сохранением таких пропорций дистанций, если вообще можно? (на 2д и 3д не получится точно) Задача основана вот на чем: есть 3 документа, известно что они похожи относительно друг друга как 10, 3 и 5, как расставить их в пространстве чтоб можно было броузить и отображать юзеру? Или так: есть вектора документов размерности V, на пространство какой минимальной размерности N можно их спроецировать с учетом всех закономерностей и без потери полезных данных?

P

121

PHWizard

19 февраля 2007, 12:32

#21

Кому интересно что у меня получилось в ходе экспериментов - получилась фигня. Пробовал двухмерную нейронку и трехмерную размерностей 5, 10, 20. Трехмерность не дала преимуществ в плане расчета "похожести" документов, скачут расстояния между проекциями одних и тех же документов в разных запусках сети с теми же параметрами. О чем это говорит - надо увеличивать сеть или размерность?

Попробовать в N-мерном пространстве, высчитанном по формуле - не получится, т.к. не хватит никаких вычислительных мощностей.

Наверняка более лучший feature selection дал бы результаты поинтереснее, я выбирал в эксперименте по 10 слов для документа, а потом перешел на выбор по 100 слов (наиболее часто встречающиеся - частота деленная на кол-во слов в документе). Т.е. идет вектор 3000 с чем-то измерений, и только 100 из них ненулевые.

Теперь я думаю опять уменьшить кол-во слов, например, 20 сделать, т.к. 100 дает слишком много ненужных слов, опять всё переиндексировать и еще раз попробовать, но надежды что-то интересное увидеть почти не осталось.

Кстати, в SOM есть такой метод ускорения работы когда сначала создается нейронка маленького размера, например 4х4, в ней идут расчеты, потом она увеличивается и уже расчитанные значения используются для новых узлов сети, таким образом, через динамическое увеличение, можно быстрее посчитать сеть, скажем, 20х20 чем если бы изначально делать 20х20 и заполнять её случайными значениями.

И я вот думаю, наверняка если бы реализовывать такую идею о глобальном пространстве, можно было бы использовать тот же принцип для увеличения размерности. Т.е. начать с размерности 2 и увеличивать до N, пока проекции не стабилизируются (не будут скакать расстояния в разных запусках той же сети). Таким образом будет найдено минимальное N для проецирования сета документов. Правда я не знаю, есть ли гарантии что проекции стабилизируются..

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

K

31

Ken

21 февраля 2007, 18:24

#22

Ну вот🙅 опять все свелось к частотам.

P

121

PHWizard

23 февраля 2007, 14:03

#23

Ken:
Ну вот🙅 опять все свелось к частотам.

А что бы ты предложил?

P

121

PHWizard

23 февраля 2007, 14:07

#24

Можно попробовать вообще весь документ кодировать, ничего не выкидывать, но по-моему факт остается фактом что размерностей надо гораздо больше чем можно на данный момент компьютером просчитать.

K

31

Ken

26 февраля 2007, 17:35

#25

PHWizard:
А что бы ты предложил?

Если б я знал какую метрику предложить...

Рассмотренные выше выкладки - замечательные.

Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.

Максимальный доход или ограничение ПФ боты ломятся на Резкий всплеск прямых заходов.

P

121

PHWizard

27 февраля 2007, 16:01

#26

Ken:
Если б я знал какую метрику предложить...
Рассмотренные выше выкладки - замечательные.
Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.

А какого рода тесты были?

K

31

Ken

1 марта 2007, 18:16

#27

Новости.

Есть N источников предоставляющих тексты T.

Допустим, они освещают явления X.

Нужно найти явления F(T,N) ={X1,X2...}, далее определить лжеисточники. и.т.д

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Все что нужно знать о DDоS-атаках грамотному менеджеру