● Xây dựng và vận hành pipeline ETL/ELT từ nhiều nguồn dữ liệu: database, API, logs, event streams.
● Chuẩn hoá dữ liệu, xử lý thiếu dữ liệu, dữ liệu trùng, sai format, sai schema.
● Thiết kế mô hình dữ liệu và lớp dữ liệu phục vụ AI/ML/LLM.
● Phối hợp với Data Scientist/AI Engineer để chuẩn bị dataset cho training, inference, feature engineering hoặc RAG.
● Theo dõi chất lượng dữ liệu, giám sát pipeline, xử lý lỗi và tối ưu hiệu năng.
● Tài liệu hoá pipeline, data contracts, quy tắc transform và chuẩn dữ liệu.

