소개
우리 조직은 MLOps/LLMOps 기반의 표준화된 AI 플랫폼과 에이전트 플랫폼을 개발하여 AI 기술이 서비스에 빠르고 안정적으로 적용되도록 지원합니다. 이 포지션은 AI 모델의 학습, 배포, 서빙, 모니터링을 위한 CI/CD 자동화 파이프라인과 Kubernetes 기반 확장 가능한 인프라를 설계, 개발, 운영하는 역할을 맡습니다.
하는 일
- 설계, 개발 및 운영 MLOps/LLMOps 기반 AI 플랫폼 아키텍처
- 구축 AI 모델 학습, 배포, 서빙, 모니터링을 위한 CI/CD 자동화 파이프라인
- 구축 및 관리 Kubernetes 기반 확장 가능하고 안정적인 모델 학습 및 추론 인프라
- 개발 대규모 언어 모델(LLM)의 파인튜닝, 서빙, 평가 및 관리를 위한 LLMOps 플랫폼
- 구축 및 연동 데이터/모델 스토리지, 피처 스토어, 벡터 DB 등 MLOps/LLMOps 핵심 구성 요소
- 구축 및 운영 자원 효율화, 학습 및 추론 최적화, 모니터링, 로깅, 얼럿 시스템 자동화
지원 자격
- MLOps, DevOps, SRE 또는 플랫폼 엔지니어링 관련 실무 경험 5년 이상
- Python, Go, Java 등 하나 이상의 프로그래밍 언어 활용 능력
- Docker, Kubernetes 환경에서의 컨테이너 기반 시스템 구축 및 운영 경험
- CI/CD 도구를 활용한 파이프라인 구축 경험
- AI/ML 워크플로우(데이터 수집/처리, 학습, 평가, 배포)에 대한 기본적인 이해
우대 자격
- Kubeflow, MLflow, KServe 등 MLOps 오픈소스 솔루션 구축 및 운영 경험
- LangChain, LlamaIndex, vLLM 등 LLM 애플리케이션/서빙 프레임워크 사용 경험
- Vector DB (e.g., Milvus, Pinecone, Weaviate) 구축 또는 활용 경험
- Terraform, Ansible 등 IaC(Infrastructure as Code) 도구를 활용한 인프라 관리 경험
- Prometheus, Grafana 등을 활용한 Observability(모니터링, 로깅) 시스템 구축 경험
- TensorFlow/PyTorch 등 딥러닝 프레임워크 사용 및 모델 서빙 경험
사용 기술
- Python, Go, Java, Docker, Kubernetes