1. Giám sát hệ thống và dịch vụ 247
- Giám sát tình trạng hệ thống (application, server, infra) theo thời gian thực
- Theo dõi trạng thái dịch vụ trong và ngoài giờ hành chính
- Đảm bảo các cảnh báo được tiếp nhận và xử lý đúng SLA
2. Phân tích và xử lý cảnh báo
- Phân tích cảnh báo từ hệ thống monitoring
- Phân loại và đánh giá mức độ ảnh hưởng
- Thực hiện xử lý ban đầu hoặc chuyển escalation đúng tuyến
- Ghi nhận và theo dõi cảnh báo
3. Tối ưu và cải tiến hệ thống giám sát
- Đề xuất cải tiến rule giám sát và cảnh báo
- Tối ưu công cụ monitoring
- Xây dựng báo cáo và dashboard giám sát
4. Tham gia xử lý sự cố mức nghiêm trọng
- Hỗ trợ xử lý các sự cố mức cao (major incident)
- Phối hợp các đơn vị kỹ thuật để khắc phục
- Theo dõi và đảm bảo hệ thống phục hồi ổn định
5. Giám sát sao lưu và phục hồi hệ thống
- Giám sát hoạt động backup
- Kiểm tra tính sẵn sàng phục hồi
- Phát hiện và cảnh báo lỗi backup
6. Tham gia kiểm thử và đánh giá hệ thống
- Giám sát test hệ thống mới/nâng cấp
- Tham gia đánh giá khả năng vận hành
- Phát hiện lỗi tiềm ẩn từ góc độ monitoring
7. Phối hợp và hỗ trợ triển khai hệ thống
- Phối hợp với Dev, Ops, BA trong triển khai
- Theo dõi hệ thống sau release
- Phát hiện sớm sự cố sau go-live
8. Nghiên cứu và nâng cao năng lực giám sát
- Nghiên cứu công cụ monitoring mới
- Đề xuất giải pháp nâng cao khả năng giám sát
- Tham gia xây dựng năng lực monitoring của đơn vị





