Hướng Dẫn Từng Bước Xây Dựng Pipeline Trong Azure Data Factory
Azure Data Factory (ADF) là một công cụ mạnh mẽ giúp di chuyển, biến đổi và tự động hóa quy trình dữ liệu trong đám mây. Trong bài viết này, tôi sẽ hướng dẫn bạn cách xây dựng một pipeline đơn giản trong ADF, từ việc thiết lập tài nguyên cơ bản, tích hợp GitHub, đến việc sao chép dữ liệu giữa các container lưu trữ và theo dõi toàn bộ quy trình.
Mục Lục
- Tạo Instance Data Factory
- Thiết Lập Tích Hợp GitHub
- Khám Phá Azure Data Factory Studio
- Tạo Tài Khoản Lưu Trữ
- Thiết Kế Pipeline Dữ Liệu
- Tạo Datasets
- Cấu Hình Linked Services
- Chạy & Theo Dõi Pipeline
- Xác Minh Đầu Ra
- Kết Luận
1. Tạo Instance Data Factory
Để bắt đầu, tôi đã tạo một tài nguyên data factory mới trong Azure với tên coredata-datafactory1.
Các bước điều hướng:
- Đăng nhập vào Azure Portal.
- Chọn “Tạo tài nguyên” > “Phân tích” > “Data Factory.”
- Điền thông tin tài nguyên: subscription, nhóm tài nguyên, tên factory duy nhất, khu vực và phiên bản (V2) (giữ các tab khác ở mặc định).
- Tham khảo Bước 2 để cấu hình Git (việc này có thể thực hiện sau!).
- Tiến hành đến tab “Xem + tạo” và xác nhận.
- Sau khi triển khai, nhấn “Đi đến tài nguyên.”
2. Thiết Lập Tích Hợp GitHub
Kiểm soát nguồn là yếu tố quan trọng để quản lý thay đổi và hợp tác một cách dễ dàng. Tôi đã thiết lập tài khoản GitHub của mình và tạo một kho lưu trữ riêng tư với tên coredata-azuredatafactory.
Cấp quyền cho ADF truy cập kho lưu trữ này.
3. Khám Phá Azure Data Factory Studio
Tiếp theo, tôi đã khởi động Data Factory Studio. Trang chính cung cấp một bảng điều hướng đơn giản, giúp dễ dàng thiết kế và theo dõi quy trình dữ liệu của bạn.
4. Tạo Tài Khoản Lưu Trữ
Trong phần demo này, tôi đã tạo một tài khoản lưu trữ với tên coredatadatastorage1. Tài khoản này phục vụ như cả nguồn dữ liệu và đích đến.
Các bước điều hướng:
- Trong Azure Portal, nhấn “Tạo tài nguyên” > “Lưu trữ” > “Tài khoản lưu trữ.”
- Chỉ định cấu hình cần thiết (nhóm tài nguyên, khu vực, tên tài khoản, độ dư thừa).
- Trên màn hình “Xem + tạo”, kiểm tra các thiết lập và nhấn “Tạo.”
- Sau khi triển khai, đi đến trang tổng quan của tài nguyên.
5. Thiết Kế Pipeline Dữ Liệu
Tôi đã tạo một pipeline đơn giản có tên data_copy_pipeline để sao chép dữ liệu từ thư mục đầu vào sang thư mục đầu ra trong Blob Storage.
Mở Data Factory Studio và nhấn vào “Tác giả.”
- Chọn “Pipeline” và nhấn “Pipeline mới.”
- Đặt tên cho pipeline của bạn (data_copy_pipeline).
- Đi đến "Hoạt động" và dưới "Di chuyển và biến đổi," chọn "Sao chép dữ liệu."
6. Tạo Datasets
Đối với pipeline này, tôi cần các datasets để đại diện cho nguồn (tệp đầu vào) và đích (tệp đầu ra).
Dataset Nguồn:
- Chọn Azure Blob Storage làm nguồn.
- Vì tệp của tôi là (.txt) nên tôi đã chọn định dạng nhị phân.
Dataset Đích:
- Đặt Azure Blob Storage làm đích (giống như nguồn).
- Đặt tên cho tệp đầu ra (ví dụ: test_data_out.log).
7. Cấu Hình Linked Services
Mỗi dataset yêu cầu một linked service xác định cách ADF kết nối đến lưu trữ cơ sở.
Tạo một linked service cho nguồn bằng cách cung cấp thông tin xác thực tài khoản lưu trữ và chọn container hoặc thư mục.
- Chọn tệp đầu vào thử nghiệm (ví dụ: test_data.txt).
- Nó sẽ trông như sau:
Lặp lại cho đích (container đầu ra và đường dẫn).
Kiểm tra kết nối để đảm bảo thiết lập đúng.
8. Chạy & Theo Dõi Pipeline
Khi mọi thứ đã sẵn sàng, tôi đã kích hoạt pipeline bằng cách sử dụng nút “Kích hoạt ngay.”
Sau khi thực thi, điều hướng đến “Theo dõi” và kiểm tra trạng thái dưới “Chạy pipeline.”
- Xem chi tiết hoạt động trong “Chạy hoạt động.”
- Kiểm tra tab chi tiết để xem metadata và logs cụ thể cho lần chạy.
9. Xác Minh Đầu Ra
Cuối cùng, tôi đã xác minh rằng tệp đầu ra đã được ghi vào thư mục đích đã chỉ định trong Blob Storage (test_data_out.log).
Tóm Tắt
Bằng cách làm theo các bước này, bạn có thể nhanh chóng thiết lập Azure Data Factory của riêng mình, kết nối với kiểm soát nguồn, thiết kế các pipeline dữ liệu đơn giản và di chuyển dữ liệu giữa các tài nguyên lưu trữ Azure. Các công cụ trực quan và thiết lập đơn giản giúp cho bất kỳ ai, kể cả những người mới bắt đầu với kỹ thuật dữ liệu đám mây, đều có thể sử dụng dễ dàng.
Kết Luận
Azure Data Factory mang lại cho người dùng khả năng điều phối di chuyển và biến đổi dữ liệu quy mô lớn với thiết lập hoặc mã hóa tối thiểu. Sự tích hợp với GitHub mang đến sự tự tin trong việc kiểm soát phiên bản, và các tính năng theo dõi giúp bạn luôn nắm bắt được từng giai đoạn. Tiếp theo, bạn có thể khám phá lịch trình, biến đổi dữ liệu và tích hợp với các dịch vụ khác—nhưng ngay cả một pipeline cơ bản cũng đã cung cấp cho bạn nền tảng vững chắc cho các dự án dữ liệu lớn hơn.
Cảm ơn bạn đã đọc! Nếu bạn thấy bài viết này hữu ích hoặc truyền cảm hứng, hãy để lại bình luận bên dưới với ý kiến hoặc câu hỏi của bạn. Tôi rất muốn nghe phản hồi và trải nghiệm của bạn. Hãy thoải mái chia sẻ bài viết này với bạn bè hoặc đồng nghiệp mà có thể hưởng lợi từ nó.
Hãy tiếp tục biến đổi và khám phá những khả năng dữ liệu mới với Azure Data Factory!