- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Кому интересно что у меня получилось в ходе экспериментов - получилась фигня. Пробовал двухмерную нейронку и трехмерную размерностей 5, 10, 20. Трехмерность не дала преимуществ в плане расчета "похожести" документов, скачут расстояния между проекциями одних и тех же документов в разных запусках сети с теми же параметрами. О чем это говорит - надо увеличивать сеть или размерность?
Попробовать в N-мерном пространстве, высчитанном по формуле - не получится, т.к. не хватит никаких вычислительных мощностей.
Наверняка более лучший feature selection дал бы результаты поинтереснее, я выбирал в эксперименте по 10 слов для документа, а потом перешел на выбор по 100 слов (наиболее часто встречающиеся - частота деленная на кол-во слов в документе). Т.е. идет вектор 3000 с чем-то измерений, и только 100 из них ненулевые.
Теперь я думаю опять уменьшить кол-во слов, например, 20 сделать, т.к. 100 дает слишком много ненужных слов, опять всё переиндексировать и еще раз попробовать, но надежды что-то интересное увидеть почти не осталось.
Кстати, в SOM есть такой метод ускорения работы когда сначала создается нейронка маленького размера, например 4х4, в ней идут расчеты, потом она увеличивается и уже расчитанные значения используются для новых узлов сети, таким образом, через динамическое увеличение, можно быстрее посчитать сеть, скажем, 20х20 чем если бы изначально делать 20х20 и заполнять её случайными значениями.
И я вот думаю, наверняка если бы реализовывать такую идею о глобальном пространстве, можно было бы использовать тот же принцип для увеличения размерности. Т.е. начать с размерности 2 и увеличивать до N, пока проекции не стабилизируются (не будут скакать расстояния в разных запусках той же сети). Таким образом будет найдено минимальное N для проецирования сета документов. Правда я не знаю, есть ли гарантии что проекции стабилизируются..
Ну вот🙅 опять все свелось к частотам.
Ну вот🙅 опять все свелось к частотам.
А что бы ты предложил?
Можно попробовать вообще весь документ кодировать, ничего не выкидывать, но по-моему факт остается фактом что размерностей надо гораздо больше чем можно на данный момент компьютером просчитать.
А что бы ты предложил?
Если б я знал какую метрику предложить...
Рассмотренные выше выкладки - замечательные.
Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.
Если б я знал какую метрику предложить...
Рассмотренные выше выкладки - замечательные.
Но... судя по тем тестам, что мне удалось делать, я пришел к выводу - априори "Частоты шумят" и вылезают за пределы той самой статистической ошибки.
А какого рода тесты были?
Новости.
Есть N источников предоставляющих тексты T.
Допустим, они освещают явления X.
Нужно найти явления F(T,N) ={X1,X2...}, далее определить лжеисточники. и.т.д