소개
NAVER SRE팀은 주요 서비스의 장애 대응과 정책 개선을 통해 서비스 안정성과 신뢰성을 확보하는 업무를 담당합니다. 이 팀은 전사 모니터링 시스템 기획 및 운영과 신뢰성 지표 설계 등 장애 예방과 신속한 복구를 위한 체계 구축에 집중하고 있습니다.
하는 일
- 네이버 주요 서비스 장애 대응 및 정책 개선 수행
- 전사 장애 대응 프로세스 통합 및 표준화 정책 수립
- 고객센터 장애 대응 품질 강화를 위한 가이드 제공 및 지원
- 사내 장애 예방 및 대응 교육 기획 및 운영
- SRE 전사 모니터링 시스템 기획 및 운영
- SLI, SLO, SLA 등 핵심 신뢰성 지표 정의 및 설계
지원 자격
- 대규모 모바일/온라인 서비스 운영/기획 경험 3년 이상
- 서비스 장애 대응 프로세스 경험
- 개발 조직과 협업 가능한 기본 기술 이해도
- 정책, 가이드, 보고서 등 문서화 및 커뮤니케이션 역량
우대 자격
- 대용량 트래픽 및 대규모 서비스 장애 대응 경험
- 정부 기관과의 대관 업무 경험
- 고객센터, QA, 서비스 부서 등 다양한 조직과 협업 경험
- SRE 원칙 및 지표 기반 운영 방법론 지식과 경험
- SLI/SLO/SLA 설계 및 운영 경험, Observability 도구 활용 경험