Частичный набор кейсов
ЧАСТИЧНЫЙ НАБОР КЕЙСОВ
НАПРАВЛЕНИЕ ML/DL/AI
Наименование: Комплекс автоматизированных медиа ресурсов на базе LLM
Описание:
Проект представляет собой несколько блогов и аккаунтов в социальных сетях, занимающихся публикацией статистических данных и новостей из области blockchain, с возможностью их быстрого количественного масштабирования.
Проект реализует 3 основные задачи:
1. Сбор данных и новостных статей, как по средствам парсинга с использованием selenium, bs4, scrapy и Pyrogram так и их получение с использованием сторонних api. (Retrieval-система)
2. Создание медиа контента: выбор темы и источников информации, написание публикаций и статей с использованием RAG (Retrieval-augmented generation) систем с ChromaDB для написания обзорных статей, а также их верификация с использованием LLM и Langchain агентов, создание сопровождающих изображений с использование генераторов, графическое представление статистических данных, генерация видео контента и его озвучки с использованием Text-to-Speech моделей.
3. Публикация подготовленного контента на целевых ресурсах, по двум конвейерам : согласно плану публикаций и по решению LLM агентов об актуальности в данный момент. Архитектурно проект разбит на отдельные сервисы по 4м основным группам: парсеры на python с FastAPI; генераторы на python с взаимодействием через RMQ и Pika; контент менеджеры, ответственные за обращение к DB и инициализацию конвейеров на Node.js; сервисы публикации на Node.js.
В рамках проекта с целью сборки метрик применяется стек ELK, реализована CI/CD на основе YandexCloud.
Наименование: Конвейер тестирования моделей LLM и их агентной конфигурации в рамках виртуальной окружающей среды
Описание:
Проект представляет собой конвейер тестирования LLM в рамках симуляции виртуальной среды (сервер Minecraft) путем оценки степени адаптации к окружающей среде (Reinfаorcement Learning) на базе проекта Voyager. В рамках проекта построен конвейер апробации различных моделей и LangChain агентов на их базе для оценки их адаптации к окружающей среде. Работа конвейера приставляет собой деятельность 4х агентов: 1) ActionAgent – Генерация кода выполнения атомарной задачи, предоставленной CurriculumAgent 2) CurriculumAgent – Декомпозиция задачи поставленной человеком и построение плана ее выполнения с учетом текущего состояния окружающей среды. 3) CriticAgent – Оценка декомпозиции задач, на возможность выполнения плана действий, также верификация работоспособности ответа ActionAgent и степени выполнения задачи по результатам совершенных действий. 4) SkillManager – Создание и менеджмент навыков, созданных ActionAgent на основе оценки их эффективности CriticAgent, оценка возможности применения уже известных навыков при получении новой атомарной задачи от CurriculumAgent, хранение и валидация системы навыков реализована с использованием распределенных вычислений Spark. Дополнительно в рамках тестирования работа CurriculumAgent была построена в нескольких вариантах: прямого указания к декомпозиции поставленной задачи, согластно структуре иерархического планирования, построение действий и практик согластно семиотической модели субъективного познания. Конвейер был апробирован с использованием сетей : Llama, YandexGPT, Bert, LFM-40b В частности, такие модели как LLaMA, BERT и др. разворачивались с применением моделей Hugging Face
Наименование: Комплекс агентов-консультантов на базе LLM в рамках приложения автодиллера
Описание:
Проект представляет собой несколько чат-ботов на базе LLM (Giga-chat) Первый бот – консультатнт при продаже автомобилей, должен отвечать на вопросы о характеристиках авто, согласно имеющейся в базе данных информации, предоставлять историю дтп из автотеки, а также при необходимости записывать пользователя на тест драйв или звонок от оператора Второй бот – консультатнт при проблемах с автомобилем, должен по описанию проблемы от пользователя и информации о марке и модели его автомобиля находить в базе обращений в СТО подобные случае и объяснять, на их основе, пользователю что может быть причиной проблемы и как ее можно решить. Для реализации эффективного взаимодействия с данными об обращениях построена векторная база знаний на основе эмбедингов причин обращений, с построением собственной несупервизированной Word2Vec embedding модели с целью построения векторного построения слов - ключевых причин обращения пользователя. Также, оба бота должны рассказывать пользователю об услуга в приложении и рекомендовать ему их, когда это соответствует контексту диалога.
Наименование: ПАК для обнаружения и прогнозирования включений шлака в струе жидкой стали «ЦИФРОВАЯ МЕТАЛЛУРГИЯ»
Описание:
Программно-аппаратный комплекс для обнаружения и прогнозирования включений шлака в струе жидкой стали на металлургических производствах. Программный комплекс адаптирован для работы в рамках среды микрокомпьютера Nvidia Jetson, функционирующего на embedded-сборке ОС GNU/Linux. Сервис детекции струи и сегментации шлака реализован на Python c использованием OpenCV для обработки видеопотока. В рамках пайплайна обработки данных, применяется обученная модель YOLOv8 для детекции струи стали в кадре с дальнейшей сегментацией шлака модифицированной моделью архитектуры UNET. Дополнительно для составления прогноза количества шлака используется кастомная сеть архитектуры LSTM. Нейросетевой модуль коммуницирует с BackEnd посредством броккера сообщений RabbitMQ при помощи библиотеку Pika. Обязанности в проекте: В качестве ML Engineer: Разработка и обучение нейросетевого модуля определения включений шлака в струе жидкой стали, разработка модуля прогнозирования объема включений шлака с применением классических методов машинного обучения (LR, RF, XGBoost/LGBM/ CatBoost) и их калибровки для достижения наилучшего результата.
В рамках проекта удалось достичь точности в 96% определения шлака
Наименование: Серверный модуль нейросетевого шумо- эхоподоавления для ВКС крупного российского банка
Описание:
Интегрируемый модуль, производящий шумо- эхоподавление с применением моделей нейронных сетей в реальном времени на стороне сервеной архитектуры ВКС. Проект состоял из двух этапов: 1- Разработка и тестирование гипотез методов реализации шумо- эхоподавления с использованием нейросетевых: RNNnoise(архитектура RNN), DFCMN (архитектура LSTM) и FRCRN, а также их комбинации и сочетания с алгоритмическими методами шумоподавления.
Для визуализации и апробации комбинаций решений использовался Python 3, Streamlit, также для графического представления данных о эффективности различных гипотиз применялась библиотека Seaborn. Обучение нейросетевых модулий проводилось с использованием PyTorch, TorchAudio. В рамках подготовки набора данных для анализа зашумленности применялось построение датаграмм с дальнейшим преобразованием в тензоры частотных характеристик аудио с применением Pandas. 2- Реализация и интеграция серверного компонента шумоподавления. Для обеспечения работы с аудиопотоком в режиме реального времени без задержек нейросетей модуль оптимизирован с использованием Prunning и Compression. В рамках интеграции нейросетевой модуль написан на C++ с использованием OpenVINO.
Дополнительно для упрощения работы по интеграции на стороне заказчика процесс сборки необходимых модулей и библиотек реализован с использованием Docker. Дополнительно для упрощения работы по интеграции на стороне заказчика процесс сборки необходимых модулей и библиотек реализован с использованием Docker.
Наименование: Интеллектуальная система распознавания уровня освещенности городских агломераций на основании спутниковых снимков
Описание:
Веб-сервис, производящий анализ спутниковых снимков с целью выявления участков города с недостаточным уровнем уличного освещения. Проекта реализован на python, при реализации для обработки изображения использовался OpenCV, для обучения модели TensorFlow, для графического представления данных использовалась библиотек Plotly, а для работы с представлением и обработки многомерных данных использовалась библиотека NumPy.
В рамках проекта удалось достичь требуемой точности определения областей с недостаточным уровнем освещённости; удалось превысить ожидаемую скорость работы за счет предварительной обработки изображения кастомным цветовым фильтром.
Наименование: Интеллектуальная система классификации и распознавания аномалий во временных рядах (ИСКРА)
Описание:
Интегрируемый веб-сервис, производящий анализ осциллограмм проездов с целью проведения предиктивной и неинвазивной диагностики ЖД оборудования и вагонов. В рамках проекта составлено и проработано несколько гипотетических решений (arima, LSTM, TADGAN). Для оптимизации времени обучения сетей использовался Sklearn (Scikit-Learn) в комбинации с LightGBM.
Удалось достичь требуемой точности распознавания аномалий; получилось детектировать неразмеченные аномалии с применением методов мат.статистики Удалось достичь требуемой точности распознавания аномалий - классические метрики полученной системы: precision = 0.89 recall=0,97 f1 =0,93 (accuracy не имеет релевантного применения в связи с неравномерным распределением классов).
НАПРАВЛЕНИЕ WEB + MOBILE
Наименование: Платформа ведения Кайдзен деятельности
Описание:
Платформа ведения Кайдзен деятельности в рамках крупнейшего в РФ комбайнового завода полного цикла. Функционал платформы заключается в приеме кайдзен-предложений, построении кастомных путей согласований таких предложений администратором платформы с дальнейшим формированием выгрузок и отчетов.
Наименование: Мобильное приложение «Авто Забота»
Описание:
Программный комплекс в виде веб и мобильного приложения для предоставления услуг автодилера (г. Чебоксары): сервисное обслуживание, техническая поддержка, покупка новых и б/у автомобилей и каршеринг.
Разработка FrontEnd приложения на iOS/Android с применением комбинации React Native + TypeScript.
Разработка клиентских адаптивных веб-панелей внутренних инструментов с применением React + TypeScript (TS) с применением различных менеджеров состояний (state manager); построение кастомных пайплайнов сборки проекта с применением различных конфигураций сборщиков; доработка существующих Legacy решений, построенных с применением JQuery и чистого JS стандартов ES6/7 + CSS. Данные получаются посредством RESTful API; управление параметрами автомобиля реализовано в реальном времени посредством Socket.io (транспорт WebSocket) Вся работа в рамках проекта хранится на GitLab, развернутом в ИТ Инфраструктуре заказчика. Работа с проектом осуществляется с применением Git.
Разработка сервисов в составе BackEnd архитектуры приложения. В рамках сервисов реализовывался следующий функционал: 1. Оптимизация за счёт объединения множества запросов к БД в более сложные одиночные запросы и кэширования результатов; 2. Работа с выполнением команд по Cron, актуализация данных по расписанию при определённых условиях; 3. Сбор всего кода, который обращался к внешнему API StarLine в отдельный транзитный BackEnd-сервис с организованным управлением 3х учётных записей с распределением данных в 3 БД (2 - MySQL, 1 - MongoDB).
В рамках развития приложения, проект занимал первые места в профильных премиях (в т.ч. премия Проксима, 2024 г.)