소개
본 조직은 카카오의 자체 멀티모달 언어모델 Kanana 시리즈를 연구 및 개발하며, 이미지, 오디오, 텍스트 등 다양한 모달리티를 통합하는 범용 멀티모달 모델 개발을 목표로 합니다. 해당 포지션은 Multimodal LLM 연구 및 개발, 모델 성능 향상과 안전성 확보, 대규모 분산 학습 환경에서의 최적화, 고품질 데이터 구축 및 평가 지표 설계 등의 주요 미션을 수행합니다.
하는 일
- Multimodal LLM 연구 및 개발을 위해 이미지, 오디오, 텍스트 등 다양한 모달리티 처리
- Supervised Fine-tuning 및 Human Preference Alignment를 통한 instruction-following 성능 및 모델 안전성 향상
- 복합 reasoning을 포함한 추론 성능 향상 모델링 수행
- 대규모 분산 학습 환경에서 모델 학습 코드 개발 및 성능 최적화
- 고품질 멀티모달 데이터 수집, 전처리, 정합성 확보 및 구축 파이프라인 설계
- 멀티모달 모델 평가 지표 설계 및 벤치마킹, 실사용 시나리오 기반 성능 검증
지원 자격
- 딥러닝 관련 분야 석사 이상 또는 이에 준하는 관련 경력이 2년 이상인 분
- 주요 딥러닝 프레임워크(PyTorch, TensorFlow, JAX 등) 중 하나 이상을 활용한 경험
- Python 기반의 코드 개발 및 실험 구현에 능숙한 분
우대 자격
- Multimodal LLM 기술 및 관련 서비스 개발 경험
- CVPR, NeurIPS, ICLR, ICCV, ICML 등 AI 분야 최상위 학회 논문 발표 또는 공동 연구 경험
- ACM ICPC 등 주요 프로그래밍 대회 수상 경력 또는 이에 준하는 알고리즘 솔빙 역량
사용 기술
- PyTorch, TensorFlow, JAX, Python