Xây dựng và vận hành hệ thống Data Warehouse (DWH)
- Thiết kế, phát triển và vận hành hệ thống DWH phục vụ lưu trữ và quản trị dữ liệu tập trung.
- Thiết kế mô hình dữ liệu và Data Mart phục vụ khai thác dữ liệu cho các hệ thống downstream.
- Xây dựng kiến trúc dữ liệu đảm bảo khả năng mở rộng, ổn định và hiệu năng cao.
Phát triển pipeline dữ liệu
- Xây dựng và vận hành các pipeline ETL/ELT lấy dữ liệu từ nhiều nguồn:
- RDBMS (Oracle, PostgreSQL, MSSQL, MySQL…)
- MongoDB
- API
- File batch
- Streaming source
- Thiết kế cơ chế đồng bộ dữ liệu batch, incremental hoặc near realtime.
- Xây dựng cơ chế CDC và đồng bộ dữ liệu giữa hệ thống nguồn và DWH.
- Tự động hóa quy trình xử lý và đồng bộ dữ liệu.
Làm sạch và chuẩn hóa dữ liệu
- Thực hiện cleansing, transform và chuẩn hóa dữ liệu từ nhiều nguồn khác nhau.
- Mapping dữ liệu giữa hệ thống transactional và DWH.
- Xử lý dữ liệu lỗi, trùng lặp, thiếu dữ liệu hoặc không đồng nhất.
- Xây dựng các rule kiểm tra chất lượng dữ liệu (Data Quality).
Tổng hợp dữ liệu
- Xây dựng các bảng aggregate/fact phục vụ khai thác dữ liệu.
- Thiết kế và tối ưu logic xử lý dữ liệu khối lượng lớn.
- Tối ưu hiệu năng query, partitioning và indexing.
Vận hành & tối ưu hệ thống
- Monitoring và xử lý lỗi pipeline/ETL job.
- Phân tích và xử lý sự cố liên quan đến dữ liệu.
- Thực hiện reconciliation giữa dữ liệu nguồn và DWH.
- Đảm bảo SLA và tính ổn định của hệ thống dữ liệu.

