Xây dựng và vận hành nền tảng hạ tầng, CI/CD pipeline và hệ thống monitoring cho các sản phẩm số của Galaxy Holdings. Đảm bảo uptime, hiệu suất và khả năng mở rộng cho các nền tảng phục vụ hàng triệu người dùng cuối.
TRÁCH NHIỆM CHÍNH
• Xây dựng và duy trì CI/CD pipelines tự động cho 10+ microservices teams across Galaxy Holdings
• Quản lý và tối ưu Kubernetes clusters (EKS/AKS), Helm charts, ArgoCD/FluxCD cho GitOps deployment
• Thiết kế và vận hành Observability platform: Metrics (Prometheus/Grafana), Logging (ELK/Loki), Tracing (Jaeger/Tempo)
• Xây dựng và maintain Infrastructure as Code (Terraform modules) cho multi environment (dev/staging/prod)
• Implement SRE practices: SLO/SLI/Error Budget, Incident Management, Postmortem culture
• Tự động hóa disaster recovery, backup/restore procedures cho database clusters và stateful services
• Tối ưu hiệu suất hệ thống, capacity planning và FinOps (cloud cost optimization)
• On-call rotation và xử lý incident cho các hệ thống production 24/7



