소개
네이버클라우드의 Hyperscale AI 팀은 대규모 인프라에서 학습 시스템 효율화와 데이터 가공, 학습 최적화 업무를 수행하며 AI 모델 생산 공정 전반에 걸쳐 DataOps부터 MLOps까지 엔지니어링 역량을 극대화하는 데 주력합니다. 이 포지션은 HyperCLOVA X의 대규모 분산 학습 시스템을 분석하고 최적화하며, 새로운 학습 최적화 기법을 발굴하고 내재화하는 역할을 담당합니다.
하는 일
- 대규모 학습데이터 전처리 및 데이터 생산 시스템 개발
- 대규모 GPU 분산 학습 시스템 분석 및 최적화
- 새로운 학습 최적화 기법 발굴 및 내재화
- 분산 학습 시스템 최적화와 안정성 향상을 위한 프로파일링 기반 시스템 구현
- HyperCLOVA X 관련 부서와 협업
지원 자격
- 대규모 분산 학습 시스템 최적화 개발 경력 2년 이상
- Pytorch, huggingface 등 딥러닝 프레임워크 숙련도 보유
- LLM 및 Transformer 모델 학습/추론 분석 능력 보유
- 대규모 분산학습 프레임워크(FSDP, Deepspeed, Megatron-lm, NeMo, Torchtitan) 경험
- 성능 향상과 SW 아키텍처 관점에서 확장성 및 유지보수 고려 가능
- 주도적 자세로 시스템 성능 개선에 즐거움을 느끼는 분
우대 자격
- Parallelism에 대한 깊은 이해 및 대규모 모델 학습 시스템 개발/최적화 경험
- GPU 아키텍처 이해 및 CUDA 커널 개발 최적화 경험
- LLM knowledge distillation 관련 논문/연구 실적
- LLM 학습 최적화 논문/개발 경험
- 대규모 LM 학습 시스템 운영/개발/최적화 경험
사용 기술
- PyTorch, Huggingface, FSDP, Deepspeed, CUDA