소개
NAVER의 SRE DevOps 팀은 전사 Metric&Monitoring 플랫폼을 개발하며 대용량 지표, 로그, 트레이스 수집 및 처리 아키텍처를 설계하고 운영합니다. 이 팀은 안정적인 서비스 운영을 위해 자동화 도구와 LLM 기반 Chat-Ops 시스템, 이상 감지 및 경보 시스템을 개발하며 주요 서비스 장애 대응과 신속한 복구를 담당합니다.
하는 일
- 네이버 전사 Metric&Monitoring 플랫폼 구축 및 개발
- 대용량 지표, 로그, 트레이스 수집 및 처리 아키텍처 설계, 개발 및 운영
- 자동화 도구 및 SRE 관제도구 개발
- LLM 기반 Chat-Ops 시스템 개발
- 통합 대시보드 및 이상 감지 경보 시스템 개발
- 주요 서비스 장애 대응 및 신속한 복구 활동 수행
지원 자격
- Python 언어 능숙
- Linux, Kubernetes(k8s), Docker, Prometheus 관련 기술 능숙
우대 자격
- 대규모 모바일/온라인 서비스 SRE 관련 개발 경험 3년 이상
- Javascript 능숙
- VictoriaMetrics, Grafana, n8n, Agentic AI 관련 기술 능숙
사용 기술
- Python, Linux, Kubernetes, Docker, Prometheus