시기
2024.01 ~ 2024.02
프로젝트 소개
Nvidia의 Triton Inference Server를 이용, 다양한 포맷의 딥러닝 모델 배포
개발 환경
항목
O/S
Ubuntu 22.04
언어
Python
프레임워크
transformers, onnxruntime, numpy , llama.cpp
misc
Docker, triton inference server
인력 구성
AI 엔지니어 2명
역할
Docker를 이용한 Triton Inference Server 설치 및 배포 환경 구성
사전 학습된 모델을 다양한 포맷으로 변환해 배포
배포된
onnx, gguf, awq
모델의
추론 속도 및 성능 차이 비교
Triton Inference Server의 API를 이용한 추론 모듈 개발
배포된 모델의 포맷에 따라 필요한 전처리, 추론, 후처리 알고리즘 구현
Triton Inference Server 배포 매뉴얼 작성 및 배포