MW-OST
Enterprise AI Container Orchestrator
Solution Overview
솔루션 개요
MW-OST는 성공적인 AI 서비스를 위해 하드웨어부터 소프트웨어 스택까지 완전히 통합된 토탈 서비스 플랫폼입니다.
오픈 소스 오픈스택(OpenStack), 쿠버네티스(Kubernetes)를 기반으로 구축되어 온프레미스, 퍼블릭 클라우드, 하이브리드 모델 및 엣지 인프라 환경을 모두 지원합니다.
Technical Architecture
핵심 기술 아키텍처
GPU 활용성 극대화 (GPU Pass-through)
- • 특화 기능 제공OpenStack 기능 중 GPU 사용에 특화된 기능들을 설치하여 GPU 활용성이 매우 뛰어납니다.
- • 직접 제어PCI 장치를 가상 머신(VM)에 직접 할당하여 제어 및 접근이 가능합니다.
- • 성능 손실 방지GPU Pass-through 기술을 통해 가상화 환경에서도 성능 손실이 거의 발생하지 않도록 지원합니다.
- • 안정성 확보Migration 기능을 통해 시스템 운영의 안정성과 효율성을 극대화하였습니다.
엔터프라이즈 컨테이너 플랫폼
- • 표준 기술 지원K8S 최신 버전을 공식 지원합니다.
- • 동적 배포AI 서버 증설 시 노드를 쉽게 추가할 수 있으며, AI PaaS(Cheetah) 연동을 통한 동적 배포를 지원합니다.
Key Features
주요 기능 및 특장점
| 구분 | 상세 기능 및 기술 내용 |
|---|---|
| 통합 AI SW Stack |
CUDA 등 필수 소프트웨어와 Tensorflow, PyTorch, Keras, R 등 다양한 딥러닝 프레임워크를 컨테이너 기반으로 제공합니다. |
| 인공지능 자원 분배 |
정책에 따라 회사, 그룹, 사용자별로 CPU, GPU, 저장소(Storage) 자원을 정밀하게 배포하고 할당합니다. |
| 사용자 독립 환경 |
멀티 테넌시(Multi-tenancy)를 지원하여 다중 사용자에게 독립적인 작업 환경을 제공하며, 맞춤형 환경을 커스텀 이미지 형태로 저장 및 버저닝할 수 있습니다. |
| 웹 기반 IDE 서비스 |
웹 브라우저를 통해 Jupyter Notebook/Lab, BASH, SSH, Sftp 등의 개발 도구에 즉시 접속할 수 있습니다. |
| 머신러닝 워크플로우 |
모델 버전 및 배포 관리, 하이퍼 파라미터 튜닝, 모델 서빙 등 ML 전체 라이프사이클을 지원합니다. |
| 공유 및 협업 |
공유 스토리지 설정을 통해 그룹원 간 데이터, 모델, 노트북 등을 공유하고 피드백을 주고받을 수 있는 커뮤니티 기능을 제공합니다. |
Intelligent Monitoring
실시간 지능형 모니터링
Grafana 기반의 대시보드를 통해 GPU 인프라의 상태를 실시간으로 가시화합니다
- • 성능 지표GPU Utilization, Memory Allocation, Clock Speed(Graphics/Memory/SM) 정보를 실시간으로 제공합니다.
- • 하드웨어 상태온도(Temperature), 전력 소비량(Power Draw), 팬 속도(Fan Speed) 등을 정밀 모니터링합니다.
- • 상태 진단드라이버 및 Vbios 버전 정보와 성능 저하 원인(Throttle Reasons)을 즉각적으로 파악할 수 있습니다.