Четвертая открытая онлайн-встреча с командой MLOps платформы НИУ ВШЭ
SmartMLOps - это система для размещения и управления сервисами искусственного интеллекта, развиваемая в рамках стратегического технологического проекта «Мультиагентная платформа ИИ-решений для отраслевых задач».
На семинаре команда проекта рассказала про достижения за текущий период. Присутствовало порядка 20 слушателей: сотрудники Департамента программной инженерии, МИЭМ, Цифрового Блока НИУ ВШЭ и приглашенные эксперты.
Руководитель проекта, доцент ДПИ Хади Салех рассказал вкратце про цели и задачи проекта, результаты прошлых периодов и пригласил слушателей подключаться к Платформе в качестве разработчиков сервисов. Упомянул про новые разделы Портала.
Стажер-исследователь Отдела разработки программных систем МИЭМ Игорь Селяков рассказал про реализованные процессы CI\CD, автоматизирующие процессы создания, управления и развертывания приложений и команд разработки. На тестовом приложении в реальном времени продемонстрировал сложность процессов скрытую от пользователя платформы, для которого все такие процессы, от создания команды до развертывания приложения, выполняются кликом кнопки в Личном кабинете. Весь процесс занял не более 10 минут. Попутно Игорь продемонстрировал реализацию и отображение в Личном кабинете статусов развертывания всех компонент и логирование и отображение событий на также автоматически развернутых дашбордах.
Старший преподаватель ДПИ Юрий Силаев рассказал про разработанный сервис анонимизации данных. Он показал проблемы, возникающие при создании приложений, основанных на данных, требования законодательства в области обработки персональных данных. Разъяснил, чем псевдонимизация отличается от анонимизации. Показал подходы к обработке персональных данных, которые позволяли бы с одной стороны убрать возможность их извлечения, но с другой сохранить полезность данных для обучения моделей. Отметил важные критерии оценки качества анонимизированных данных, такие как k-анонимность, l-разнообразие и t-близость и как такие критерии используются в разработанном сервисе. Юрий разъяснил риски, которые возникают при использовании анонимизированных данных, и подходы к приоритезации и снижению рисков.
Отдельно Юрий отметил проблемы при работе с данными корпоративных систем НИУ ВШЭ и инструменты их решения. Продемонстрировал результаты работы модели LLM, которая в человеко-понятном виде способна описывать содержания таблиц и столбцов баз данных.
Показал работу сервиса выявления персональных данных в сплошном тексте. Такой сервис использует разнообразные подходы, от поиска по словарю и регулярных выражений до обучаемых моделей анализа текстов, для поиска и замены возможных персональных данных, включая ФИО, номера телефонов, ИНН и СНИЛС и др. При этом учитывается контекст и ведутся таблицы замен. Предполагается размещение демо-версии сервиса на Платформе.
В заключение Хади Салех озвучил планы дальнейшей работы над проектом по разработке, учету квот и ограничений на ресурсы приложений, создания новых дашбордов для разработчиков и сбора метаданных для озера данных.
В ходе семинара прозвучали вопросы и ценные предложения, так предложено сориентировать работу Платформы на другие языки программирования, помимо Python.
Ждем вас на следующем семинаре!
Запись семинара доступна на странице Портала: https://mlops.hse.ru/seminar
Подписаться на рассылку анонсов: https://www.hse.ru/news/announcements/subscribe/1013707110/
Салех Хади Мухаммед
Департамент программной инженерии: Доцент
Селяков Игорь Витальевич
Отдел разработки программных систем: Стажер-исследователь
Силаев Юрий Владимирович
Департамент программной инженерии: Старший преподаватель