- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
PHWizard, ок. Теория в тумане, но истина где-то рядом. А теперь не мог бы ты рассказать на примере вот этого топика, как алгоритм поймет о чем здесь шла речь и выделит основную тематику? :)
p.s. я против изобретения исукусственного интелекта... Все равно это будет просто тупая машина с 0 и 1.
Т.е. 439 измерений нужно чтобы спроецировать несчастные 3 точки?
Да, и при этом это 3 любые точки. Т.е. вы как бы освобождаетесь от конкретной выборки и можете гарантировать это для любого входа.
Например, система индексирует много документов, и там встречается: "Маша пошла по грибы", "Петя пошел по грибы", "Маша почистила зубы", "Петя почистил зубы". В ходе уменьшения размерности Маша и Петя проецируются рядом, а идти по грибы и чистить зубы - в другом месте, а расстояния между ними отражают насколько эти понятия связаны.
Получить пространство признаков (знаний) вполне реально, если подобрать правильную метрику, то есть определить, какие признаки объекта (ключевые слова в документе) являются смысловыми.
Сложно найти адекватную неформальной задаче формальную модель исходных данных. Когда (если) она найдена, то в общем-то уменьшение размерности носит чисто технический характер и служит только лишь для экономии ресурсов (как верно отмечено, это похоже на сжатие с потерями), но без "ореола" исскуственного интелекта.
Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.
Формула, например, отсюда "An elementary proof of the Johnson-Lindenstrauss Lemma".
А откуда 4? Там ведь формула О(log(n)/epsilon^2)
PHWizard, ок. Теория в тумане, но истина где-то рядом. А теперь не мог бы ты рассказать на примере вот этого топика, как алгоритм поймет о чем здесь шла речь и выделит основную тематику? :)
На основе одного топика - нет. А если с ним будут проиндексированы все топики, тогда может быть. Т.е. компьютер, конечно, не начнет понимать, о чем речь, но сможет понимать насколько этот топик отличается от другого, а все они вместе от третьего.
Погодите, я тут эксперимент провожу, насколько увеличение количества входной инфы увеличит точность расстановки, о результатах напишу.
Просто у меня поисковик на пхп и медленно страницы индексирует.
p.s. я против изобретения исукусственного интелекта... Все равно это будет просто тупая машина с 0 и 1.
:)
Да, и при этом это 3 любые точки. Т.е. вы как бы освобождаетесь от конкретной выборки и можете гарантировать это для любого входа.
Ну отлично что решение нашлось. А то мне некоторые математики говорили что решения нет или что каждый раз нужно решать в частном случае.
Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).
А как же теорема компактности и т.п.?
Меня более увлекает обратная операция - развертывания информации из сжатого образа, в результате которой теоретически можно восстановить отличную от оригинала часть текста с тем же смыслом, взятую, например, из другого документа.
Ага, восстановить или найти. Эти все вещи рядом стоят, KR (knowledge representation), NLP (natural language processing), AI, сжатие данных. Если будет прорыв в одной сфере, это потянет за собой остальные.
А откуда 4? Там ведь формула О(log(n)/epsilon^2)
Ну 4-ка там спрятана под O(), см. формулировку Theorem 2.1
Так это самое сложное -- подобрать метрику или убедиться, что Маша и Петя попадут рядом (просто из факта, что число размерностей стало меньше, это же не следует).
Она не теорема, а гипотеза. И выражает лишь необоснованое предположение (надежду), что они попадут рядом, если удачно подобрать признаки. Но на самом деле это не обязано быть и часто не бывает так в реальности. Если вы докажете, что выбранные признаки отображают "компактные" множества в "компактные" (т.е. близкие точки в близкие, далекие в далекие и т.д. с четким определением расстояния), то тогда это можно утверждать.
Ну 4-ка там спрятана под O(), см. формулировку Theorem 2.1
Упс, проглядел.
Она не теорема, а гипотеза. И выражает лишь необоснованое предположение (надежду), что они попадут рядом, если удачно подобрать признаки. Но на самом деле это не обязано быть и часто не бывает так в реальности. Если вы докажете, что выбранные признаки отображают "компактные" множества в "компактные" (т.е. близкие точки в близкие, далекие в далекие и т.д. с четким определением расстояния), то тогда это можно утверждать.
Ага, я читал что тут раз на раз не приходится. Примерно 50 на 50 (с) :)
Не знаю как это доказывать кроме как экспериментом. Ну а тут дрова будут.. Допустим, 700 документов, размерность вектора 2000, размерность пространства 2620 (Epsilon = 10%), пусть даже нейронка 3х3х3х3..
Это будет 1e+1250 нейронов, на каждой итерации для каждого считать 2000 весов и еще расстояния вычислять. Тут никакое перемножение на случайные матрицы, параллельные вычисления, динамический размер нейронки и прочие ухищрения не помогут. У меня 3D тормозит, а тут 2620D. Можно, конечно, использовать другие способы кроме SOM, но IMHO они все похожи.
700 документов, размерность вектора 2000, размерность пространства 2620 (Epsilon = 10%), пусть даже нейронка 3х3х3х3..
Я все-таки не стал бы делать выводы для SOM, исходя из размерности, полученной по JL-лемме. Все-таки это разные вещи, может какое-то ощущение порядка величин может и могут дать для друг друга, не знаю.