Phân Tích Toàn Diện Tiêu Chuẩn Thiết Kế ODS và DWS
Hướng dẫn Thiết kế và Thực hành Data Lakehouse Mới nổi (2025) bao gồm bốn hướng dẫn tiến bộ, với các phần chính là "Kiến trúc Mô hình → Tiêu chuẩn Chung → Tiêu chuẩn Lớp → Tiêu chuẩn Đặt tên", nhằm xây dựng một kho dữ liệu hiện đại có thể phát triển, quản lý và chia sẻ.
Bài viết này là bài thứ ba trong chuỗi, cung cấp phân tích chi tiết về tiêu chuẩn thiết kế qua các lớp kho dữ liệu, bao gồm đồng bộ hóa, lưu trữ và chất lượng dữ liệu.
Bài viết cuối cùng sẽ phân tích các tiêu chuẩn đặt tên cho từng lớp kho dữ liệu trong khung này, giúp các doanh nghiệp xây dựng một phương pháp toàn diện từ việc thu thập dữ liệu đến việc hiện thực hóa giá trị. Hãy theo dõi phiên bản đầy đủ.
1. Tiêu Chuẩn Thiết Kế Lớp ODS
Tiêu chuẩn Đồng bộ hóa:
- Mỗi bảng nguồn chỉ có thể được đồng bộ hóa một lần.
- Logic khởi tạo đầy đủ và đồng bộ hóa gia tăng phải rõ ràng.
- Lưu trữ phân vùng nên dựa trên ngày và giờ thống kê.
- Các trường trong bảng mục tiêu thiếu trong nguồn phải được tự động điền.
Phân loại Bảng và Vòng đời:
1. Bảng ODS Giao dịch Đầy đủ:
- Bảo quản vĩnh viễn cho dữ liệu không thể tái tạo;
- Nhật ký được giữ theo yêu cầu bảo quản;
- Dữ liệu ngày đặc biệt được giữ theo nhu cầu;
- Dữ liệu tháng đặc biệt được giữ theo nhu cầu.
2. Bảng ODS Gương Đầy đủ:
- Khuyến nghị lưu trữ hàng ngày;
- Bảo quản các thay đổi lịch sử;
- Dữ liệu mới nhất được lưu trong phân vùng tối đa;
- Dữ liệu lịch sử được giữ theo nhu cầu.
3. Dữ liệu Tăng cường ODS:
- Khuyến nghị lưu trữ hàng ngày;
- Với các bảng đầy đủ tương ứng → giữ 14 ngày;
- Không có bảng đầy đủ tương ứng → giữ vĩnh viễn.
4. Bảng Tạm thời trong ETL ODS:
- Giữ theo nhu cầu;
- Giữ tối đa 7 ngày;
- Khuyến nghị xóa sau khi sử dụng, tái tạo nếu cần.
5. Dữ liệu BDSync Không trùng lặp:
- Lưu trữ qua lớp trung gian;
- Mặc định xóa sau khi sử dụng, không khuyến nghị lưu trữ.
Chất lượng Dữ liệu:
- Các bảng đầy đủ phải cấu hình các định danh duy nhất.
- Giám sát dữ liệu phân vùng trống.
- Giám sát sự thay đổi và phân phối của trường enum.
- Giám sát biến động khối lượng và số hàng dữ liệu ODS.
- Tất cả các bảng ODS phải có ghi chú.
2. Tiêu Chuẩn Lớp Dimension Chung
1) Nguyên tắc Thiết kế
- Tính nhất quán: Tên trường, kiểu dữ liệu và nội dung phải tương thích giữa các bảng vật lý.
- Kết hợp & Tách rời Dimension:
- Nguyên tắc Kết hợp: Kết hợp các trường có mối liên hệ chặt chẽ (ví dụ: thuộc tính sản phẩm + thương hiệu).
- Dimension Không liên quan: Đưa vào một dimension kết hợp đặc biệt.
- Dimension Hành vi: Các biện pháp tính toán được sử dụng như các dimension (ví dụ: các khoảng nhấp chuột).
- Tách rời & Độ dư: Tách ra thành các bảng cốt lõi/mở rộng theo tầm quan trọng & tần suất.
2) Quản lý Lưu trữ & Vòng đời
Khuyến nghị phân vùng hàng ngày.
- Khoảng thời gian tối đa ≤ 4 ngày → giữ lại 7 ngày cuối.
- Khoảng thời gian tối đa ≤ 12 ngày → giữ lại 15 ngày cuối.
- Khoảng thời gian tối đa ≤ 30 ngày → giữ lại 33 ngày cuối.
- Khoảng thời gian tối đa ≤ 90 ngày → giữ lại 120 ngày cuối.
- Khoảng thời gian tối đa ≤ 180 ngày → giữ lại 240 ngày cuối.
- Khoảng thời gian tối đa ≤ 300 ngày → giữ lại 400 ngày cuối.
3. Tiêu Chuẩn Lớp Chi tiết DWD
1) Quản lý Lưu trữ & Vòng đời
Khuyến nghị phân vùng hàng ngày (các quy tắc giống như trên).
2) Nguyên tắc Bảng Thực tế Giao dịch
- Thiết kế dựa trên nhu cầu ứng dụng dữ liệu và quy trình kinh doanh.
- Sử dụng ngày/giờ sự kiện làm phân vùng để tăng hiệu suất quét.
- Các tập hợp dư thừa giúp giảm tải IO.
- Các dimension suy yếu giảm chi phí kết nối.
3) Bảng Thực tế Chụp theo Định kỳ
- Mỗi hàng tổng hợp các biện pháp trong một khoảng thời gian (ngày/tuần/tháng).
- Granularity là định kỳ, không phải là các sự kiện cá nhân.
- Thường bao gồm nhiều thông số với granularity nhất quán.
4) Bảng Thực tế Chụp Tích lũy
- Xây dựng cho phân tích quy trình nhiều lần (ví dụ: quy trình đơn hàng mua).
- Phân tích thời gian giữa các sự kiện.
- Hữu ích cho các sự kiện như kết thúc, giao hàng không được hỗ trợ bởi các bảng giao dịch.
4. Tiêu Chuẩn Lớp Tích lũy Chung DWS
Hiệu suất kho dữ liệu là tiêu chí thành công chính.
Tích lũy cải thiện hiệu suất bằng cách tóm tắt dữ liệu chi tiết.
1) Nguyên tắc Tích lũy Cơ bản
- Tính nhất quán: Phải khớp với kết quả truy vấn dữ liệu chi tiết.
- Tránh thiết kế bảng đơn: Không kết hợp nhiều granularity trong một bảng.
- Granularity linh hoạt: Tích lũy tại các dimension cần thiết.
2) Các bước Tích lũy
- Xác định dimension tích lũy (ví dụ: theo sản phẩm).
- Xác định cấp độ tổng hợp (hàng ngày, hàng tháng, theo danh mục, v.v.).
- Xác định các biện pháp tổng hợp (ví dụ: tổng số bán hàng, số lượng đơn hàng).
3) Nguyên tắc Lớp Tích lũy Chung
- Khả năng tái sử dụng dữ liệu: Dữ liệu tích lũy nên phục vụ nhiều người dùng.
- Không tích lũy xuyên miền: Giữ trong miền kinh doanh.
- Phân biệt các khoảng thời gian thống kê: Tên bảng nên chỉ ra các khoảng thời gian (ví dụ:
_1d,_td,_nd).
Thực tiễn Tốt nhất
- Luôn kiểm tra dữ liệu trước khi đồng bộ hóa để đảm bảo độ chính xác.
- Duy trì tài liệu cho từng lớp dữ liệu để dễ dàng theo dõi và bảo trì.
Cạm Bẫy Thường Gặp
- Bỏ qua việc kiểm tra chất lượng dữ liệu có thể dẫn đến sai sót lớn.
- Thiếu kế hoạch cho việc quản lý vòng đời dữ liệu có thể gây lãng phí tài nguyên.
Mẹo Hiệu Suất
- Sử dụng phân vùng để tối ưu hóa truy vấn và tăng tốc độ xử lý dữ liệu.
- Giảm thiểu số lần truy cập vào các bảng lớn bằng cách sử dụng các bảng tạm thời khi cần thiết.
Giải Quyết Sự Cố
- Nếu phát hiện ra dữ liệu trùng lặp, kiểm tra quy trình đồng bộ hóa và sửa chữa lỗi ngay lập tức.
- Đối với các vấn đề về hiệu suất, phân tích log để tìm ra nguyên nhân gốc rễ và cải thiện quy trình.
Câu Hỏi Thường Gặp
-
Tiêu chuẩn thiết kế ODS là gì?
Tiêu chuẩn thiết kế ODS nhằm đảm bảo rằng dữ liệu được đồng bộ hóa một cách hiệu quả và quản lý chất lượng dữ liệu. -
Tại sao cần có tiêu chuẩn cho lớp Dimension?
Các tiêu chuẩn này giúp đảm bảo tính nhất quán và khả năng mở rộng cho các phân tích và báo cáo trong tương lai.
Liên Kết Nội Bộ
Hãy theo dõi bài viết tiếp theo về Tiêu chuẩn Đặt tên cho các lớp kho dữ liệu.