Головоломка (VSM и dimensionality reduction)

1 23
P
На сайте с 05.12.2004
Offline
121
#21

Кому интересно что у меня получилось в ходе экспериментов - получилась фигня. Пробовал двухмерную нейронку и трехмерную размерностей 5, 10, 20. Трехмерность не дала преимуществ в плане расчета "похожести" документов, скачут расстояния между проекциями одних и тех же документов в разных запусках сети с теми же параметрами. О чем это говорит - надо увеличивать сеть или размерность?

Попробовать в N-мерном пространстве, высчитанном по формуле - не получится, т.к. не хватит никаких вычислительных мощностей.

Наверняка более лучший feature selection дал бы результаты поинтереснее, я выбирал в эксперименте по 10 слов для документа, а потом перешел на выбор по 100 слов (наиболее часто встречающиеся - частота деленная на кол-во слов в документе). Т.е. идет вектор 3000 с чем-то измерений, и только 100 из них ненулевые.

Теперь я думаю опять уменьшить кол-во слов, например, 20 сделать, т.к. 100 дает слишком много ненужных слов, опять всё переиндексировать и еще раз попробовать, но надежды что-то интересное увидеть почти не осталось.

Кстати, в SOM есть такой метод ускорения работы когда сначала создается нейронка маленького размера, например 4х4, в ней идут расчеты, потом она увеличивается и уже расчитанные значения используются для новых узлов сети, таким образом, через динамическое увеличение, можно быстрее посчитать сеть, скажем, 20х20 чем если бы изначально делать 20х20 и заполнять её случайными значениями.

И я вот думаю, наверняка если бы реализовывать такую идею о глобальном пространстве, можно было бы использовать тот же принцип для увеличения размерности. Т.е. начать с размерности 2 и увеличивать до N, пока проекции не стабилизируются (не будут скакать расстояния в разных запусках той же сети). Таким образом будет найдено минимальное N для проецирования сета документов. Правда я не знаю, есть ли гарантии что проекции стабилизируются..

Dappros: your private business blockchain in the cloud (https://www.dappros.com/)
K
На сайте с 22.04.2003
Offline
31
Ken
#22

Ну вот🙅 опять все свелось к частотам.

P
На сайте с 05.12.2004
Offline
121
#23
Ken:
Ну вот🙅 опять все свелось к частотам.

А что бы ты предложил?

P
На сайте с 05.12.2004
Offline
121
#24

Можно попробовать вообще весь документ кодировать, ничего не выкидывать, но по-моему факт остается фактом что размерностей надо гораздо больше чем можно на данный момент компьютером просчитать.

K
На сайте с 22.04.2003
Offline
31
Ken
#25
PHWizard:
А что бы ты предложил?

Если б я знал какую метрику предложить...

Рассмотренные выше выкладки - замечательные.

Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.

P
На сайте с 05.12.2004
Offline
121
#26
Ken:
Если б я знал какую метрику предложить...
Рассмотренные выше выкладки - замечательные.
Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.

А какого рода тесты были?

K
На сайте с 22.04.2003
Offline
31
Ken
#27

Новости.

Есть N источников предоставляющих тексты T.

Допустим, они освещают явления X.

Нужно найти явления F(T,N) ={X1,X2...}, далее определить лжеисточники. и.т.д

1 23

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий