소개
NAVER의 ML Ops 팀은 Kubeflow, MLflow 등 오케스트레이션 도구를 활용하여 AI/ML 모델의 학습과 추론 인프라를 설계하고 운영하는 역할을 담당합니다. 이 팀은 고성능 모델 서빙 시스템 구축과 모델 성능 최적화, 안정성 모니터링 등 MLOps 전반의 자동화 환경 조성에 집중합니다.
하는 일
- MLOps 파이프라인(CI/CD) 설계, 구축 및 운영
- Kubeflow, MLflow 등 ML 파이프라인 오케스트레이션 도구 활용 자동화 환경 조성
- 고성능, 고가용성 모델 서빙 시스템 설계 및 구축
- AI 모델 경량화 및 추론 성능 최적화
- K8s 기반 컨테이너 환경에서 모델 학습/추론 인프라 구축
- 모델 성능 및 안정성 모니터링, 로깅, 알림 시스템 구축 및 운영
지원 자격
- 5년 이상의 MLOps, DevOps, SRE 관련 실무 경험 또는 이에 준하는 역량
- Python 포함 하나 이상의 프로그래밍 언어(Java, Scala 등) 활용 능력
- Docker 및 K8s 환경에 대한 깊은 이해와 구축/운영 경험
- CI/CD 파이프라인(Jenkins, Airflow, GitLab CI, GitHub Actions 등) 구축 및 운영 경험
- AI/ML 모델링 최신 지식 및 실무 개발 경험
우대 자격
- Feature Store, Model Registry, Vector DB 등 ML 플랫폼 구성 요소 설계 및 구축 경험
- 대규모 데이터 처리 기술(Hadoop, Spark) 이해 및 경험
- 모델 서빙 환경(Triton Inference Server, vLLM 등) 최적화 경험
- ML 파이프라인 오케스트레이션 도구(Kubeflow, MLflow 등) 사용 및 운영 경험
사용 기술
- Python, Java, Scala, Docker, Kubernetes, Jenkins, Airflow, GitLab CI, GitHub Actions, Kubeflow, MLflow, Hadoop, Spark, Triton Inference Server, vLLM