소개
Infra Engineering Tribe는 토스의 다양한 서비스가 안정적으로 운영되도록 네트워크와 시스템 인프라를 설계하고 운영하는 팀이며, Systems Engineer 팀은 인프라 구조 개선과 장애 근본 원인 제거를 통해 확장성과 안정성을 확보하는 데 집중합니다. 이 포지션은 대규모 온프레미스 인프라와 다양한 워크로드 환경을 설계·운영하며, 장애 분석과 서비스 아키텍처 표준화 등 인프라 전략 수립과 개선을 주도하는 역할을 맡습니다.
하는 일
- 온프레미스 기반 인프라 설계, 구축 및 안정적 운영
- 복잡한 인프라 문제 정의 및 최적 해결 방안 도출
- 데이터, 플랫폼, 보안 팀과 협업하여 시스템 개선 주도
- 장애 발생 시 Root Cause 분석 및 구조적 개선 수행
- 운영 도구, 자동화, 모니터링 시스템 기획 및 내재화
지원 자격
- 대규모 Linux 서버와 네트워크 인프라 운영 경험
- 문제 상황을 빠르게 파악하고 구조적인 해결 방안 설계 경험
- Python, Bash 등 스크립트를 활용한 운영 자동화 경험
- 오픈소스 기반 모니터링 및 로깅 활용 장애 대응 경험
- 복잡한 인프라 환경에서 문제 정의 및 최적 해결 방안 도출 경험
- 온프레미스 기반 인프라 설계, 구축 및 안정적 운영 경험
우대 자격
- GPU Cluster(Slurm, Kubernetes 등) 운영 및 고도화 경험
- Kubeflow, MLflow, Airflow 등 ML Ops 환경 구성 지원 경험
- AI/ML 워크로드 스케줄링, 모니터링, 자원 최적화 경험
- Data Warehouse, Data Mart, Data Lake 운영 경험
- Hadoop과 Spark 기반 분산 데이터 처리 인프라 운영 경험
- Kafka 기반 데이터 파이프라인 인프라 운영 및 장애 대응 경험
사용 기술
- Linux, Python, Bash, Kubernetes, Kafka