소개
NAVER Cloud의 HyperCLOVA 및 차세대 Omni 모델을 대규모 트래픽 환경에서 빠르고 안정적으로 서빙하기 위한 인프라를 개발하는 팀입니다. 이 포지션은 LLM 및 멀티모달 모델 인퍼런스 플랫폼의 개발과 최적화, 클러스터 및 캐시 아키텍처 설계, 최신 연구 기반 PoC 수행을 주요 미션으로 합니다.
하는 일
- 사내 LLM/Omni 모델 인퍼런스 플랫폼 개발 및 운영
- vLLM 관련 이슈 분석, 버그 수정 및 업스트림 컨트리뷰션 수행
- speculative decoding, batching, streaming 등 인퍼런스 성능 최적화 기법 적용
- agentic AI 및 tool calling 기능 서빙 로직 설계 및 구현
- prefix-aware routing 및 KV 캐시 정책 설계와 클러스터·캐시 아키텍처 최적화
- Disaggregated serving 및 메모리 계층화 인프라 설계와 실험 진행
지원 자격
- 백엔드/플랫폼/ML 인프라/LLM 인퍼런스 관련 분야 3년 이상 실무 경험 또는 이에 준하는 대규모 시스템/인퍼런스 플랫폼 개발 경험
- Python 기반 서비스/플랫폼 개발 경험
- Docker 및 Kubernetes 등 컨테이너 환경 서비스 운영 경험
- PyTorch 기반 LLM 인퍼런스 파이프라인 기본 이해
- KV cache, batching, token streaming 개념 이해 또는 빠른 학습 능력
- 성능/안정성 이슈를 지표와 재현 가능한 형태로 정의하고 개선 방향 제안 경험
우대 자격
- vLLM, sglang, TRT-LLM 실사용 경험 또는 오픈소스 기여 경험
- prefix-aware routing, KV cache 최적화, GPU/노드 자원 효율 개선 경험
- 비전/오디오 등 멀티모달 인퍼런스 파이프라인 설계·운영 경험
- LMCache, Mooncake, KVFlow 등 논문/기술 레포트 PoC·실험 경험
- 시스템·ML 시스템 관련 발표 또는 문서/논문 작성 경험
사용 기술
- Python, PyTorch, Docker, Kubernetes, vLLM