Sly32

Рейтинг
370
Регистрация
29.03.2012
Devstory #:
У нас все это реализовано давно , на базе 1с.

Можешь рассказать, как что-то из приведенных мною примеров у вас реализовано на основе 1С? Очень любопытно.

Теперь мои новости)
Поняв, что многие документы имеются в виде картинок, вспомнил, про еще одну возможность нейросетей - распознавание обьектов, в частности текста. Поэтому прикрутил OCR использующую нейросети - Tesseract. Теперь достаточно загрузить фотку документа в систему, дальше она сама преобразует в ПДФ, потом обработает документ, создаст эмбеддинги, закинет все это в векторную базу. Теперь при работе я уже могу задавать вопросы и бот будет использовать не только пре-трэйнед модели, но и дополнения с помощью RAG. 
Пока думаю как это все хранить. Прикручивать еще и векторную базу данных типа  Pinecone не очень хочется, у меня и так уже есть скалярный Постгрес и графовая Neo4j. склоняюсь postgres c векторным модулем

plab #:
Так у вас товарищ стартап-корпорацию походу открыл.

У нас с вами разные представления о корпорациях) Но несколько миллионов инвестиций в прошлом году они, насколько я знаю, привлекли.

Михаил #:
Так в том-то и прелесть концепции у Лема, что в качестве хранилища информации выступал не каждый элемент, а исключительно их совокупность

Фантастика тем и хороша, что в ней можно игнорировать ограничения, которые будут в реальной жизни. В данном случае концепция не задумывается о скорости соединения и об обьемах передаваемой информации. 

Я сталкивался с ситуациями, когда казалось бы верное решение, на практике упиралось в проблемы передачи информации. 

(Дальше можно не читать кому не интересны технические подробности) 
Писали сервис обработки создания документов. Заказчик хотел дешево, поэтому предложил использовать амазоновские лямбды. Кто не знает - это небольшой инстанс в спящем режиме. Когда на него приходит запрос - просыпается, делает свое дело, отправляет ответ и снова засыпает. А ты платищь только за время его работы, не как в случае с VPS -  все время. 
По итогу оказалось что вот это время просыпания на холодную превышает все требования закзчика, приходилось держать лямбду всегда горячей, а это лишало всего преимущества.

Это я к чему - децентрализованная система будет ооочень медленной за счет типа соединения и обьема передаваемых данных.  Если при серверном поиске ты получаешь информацию с одного источника, то тут тебе нужно создать сотни, если не тысячи соединений для получения результата. 

Опять же не существует алгоритмов поиска, оптимизированных под распределенный поиск. Ну и главное - верификация данных. Если в такой сети насоздавать нод с фейковыми данными - как их отличить?

Так что считаю, такое будет возможно реализовать еще не скоро.

plab #:
Ни врачу, ни исследователю, ни учителю не приходят кучи документов в разных форматах.

Ты живешь в своем узком мирке вебмастера и не пытаешься посмотреть шире. А я стараюсь обьяснить это тебе. Вот тебе примеры из моего личного опыта, то над чем я лично работал.

- Проект по обработке архивных документов - данные по геологоразведке. Оказалось, что каждый штат хранит документацию как попало, у всех свой формат. На основе ML наша система могла разобрать самый потрепаный документ и вытянуть из него данные в автоматическом режиме. Это мы делали лет 5-7 назад, еще до всего этого хайпа с АИ.
- Создание контрактов по продаже дилерских и аукционных автомобилей в Америке. Опять же у каждого штата свои форматы документации. Приходилось писать отдельные блоки обработки под каждый штат. Если бы там применить АИ - в раз ы бы было все проще. Впрочем уверен, что счас они к этому уже пришли.

- Это корпоративные примеры. Но есть и из личного. Мой товарищ  открыл стартап в Америке - смарт-закупки. Как только заказчик не присылает свои требование, хорошо, что не голубями. У некоторых даже факсы еще живы)))
И вот все это летит в систему, распознающую это, нет надобности держать огромный отдел клерков, занимающихся вводом документации - все автоматически.

plab #:
Получится дебильный опросник для дебилов. Разработка проверочных работ требует осознанной проработки материала. Надо понимать, по каким моментам надо задавать вопросы, а по каким - глупо. ЖПТ этого не понимает. 

Я мог бы привести тебе массу  аргументов, Почему это не так. Сделаем проще, если тебе интересно. Я все равно работаю сейчас над такой системой. Типа дипломная работа. Когда закончу - дам тебе доступ и ты сам посмотришь, на что она способна.

plab #:
Так и работайте по найму.

Я и работаю. Все это - в рамках развития.

plab #:
Для чего? На это будет спрос? Кому оно будет надо, кроме как по приколу?

Отвечу еще раз. Пример - тебе нужно обрабатывать кучу документов, например результатов тестов, исследований, анализов... Тебе их в день присылают десятками, многостраничных, на разных языках, в разных форматах, а тебе нужно извлечь только пару параметров. Доки могут приходить в любых параметрах - как текстовый файл, как пдф, как картинка просто... Мой сервис сделает тебе  по каждому документу краткое описание и достанет нужный результат. Причем неважно как это прописано в документе - он поймет, расшифрует аббревиатуры и отдаст тебе только то, что ты ищешь. 

Кому? Ну например врачу, исследователю. Учителю упростит работу. Ты загружаешь например параграф по теме и просишь выбрать основные положения темы и сделать опросник - вот тебе готовый тест для учеников по теме... 

plab #:
Можно создать сайт, систематизирующий материалы по ИИ, где, кроме теории, на небольших примерах (типа фото -> пдф + описание) демонстрировать его возможности. Через какое-то время вы будете спецом по ИИ, консультация которого будет чего-то стоить

У тебя обратный подход))) Я сначала стану специалистом в этой теме, потому смогу обучать) 

plab #:
Люди, которые из предметных сфер, лучше знают, как это можно применить на практике, где это реально надо.

Не согласен. Вот ты специалист по замеру окон, но не видишь, как тут можно упростить работу. Я - IT-architect  и я вижу что можно применить. Ты вообще похоже не очень знаешь, как работает все это в современном мире. Вот например ты в курсе, как наша компания получает клиентов?

plab #:
1. Уверены, что ИИ - это технология, имеющая практический смысл. Она навсегда в IT. ?

Абсолютно - да. Более того - Она вытеснит и вытесняет многое в айти.

plab #:
2. Сайты делаются и развиваются годами. Это не проекты "сегодня пока спорили я сделал". Готовы ли вы посвятить этому одному все свое время?

На сегодня для меня пет-разработка - хобби. Да, с прицелом на будущее. Поэтому и изучаю постоянно что-то новое. Пока же предпочтительнее  работа по найму. В ней одни плюсы. 

ArbNet #:

Слышь бездарь, позоришься как раз ты 😉

Большая языковая модель это не только данные, а главное архитектура, обработчики и генератор текста нейросетью, а это ПО которое может работать автономно без подключения к интернет

Расскажи двоечник, как ты сможешь работать с LLM напрямую? Это не код в понимании ПО, это математическая струтура, почитай что это такое и чем отличается от ПО. 

ArbNet #:
LLM это именно ПО устанавливаемое на какой либо компьютер. Модели нейронной сети могут работать локально при наличии данных

Что  двоечник, решил позориться до конца? ))) Ты бы хоть прочитал расшифровку) LLM - Это набор данных уже! Вот я сегодня работал с моделью "meta-llama/Llama-3.2-3B-Instruct" от Meta. А ПО для этого  - набор библиотек и приложений, позволяющее извлекать данные. Но ты продолжай веселить своими "знаниями"

ArbNet #:
LLM - это ПО для установки языковых моделей нейросети локально.

Не неси чушь, двоешник!   large language model, LLM это языковая модель, состоящая из нейронной сети.

Програ́ммное обеспе́чение (допустимо также произношение обеспече́ние) (ПО) — программа или множество программ. В случае с ЛЛМ это какой-нибудь langchain.

Выучи понятия сначала, потом встревай в беседу

master32 #:

так я больше 15 лет назад разобрался, другим бы надо разобраться, что децентрализация - это независимость)

Да ничего ты не разобрался))) Любой термин рассматривается в контексте, это раз. Тут мы говорим про децентрализацию поиска. Какая  независимость? Ее не существует. 
При ДП ты не зависишь от какого-то центрального сервера, но зависишь от партнеров по сети. Не зависишь от партнеров(у тебя все локально) - зависишь от наличия электричества итд. В настоящее время ДП  имеет слишком много недостатков, чтоб вытеснить традиционные.

master32 #:
не знаю как, надо с понятием "децентрализация" вначале разобраться)

Ну так разбирайся)

Всего: 7322