Hướng Dẫn Tạo và Sử Dụng Dataflows (Gen2) trong Microsoft Fabric
Microsoft Fabric là một nền tảng mạnh mẽ cho việc quản lý và phân tích dữ liệu. Trong bài viết này, chúng ta sẽ tìm hiểu cách tạo và sử dụng Dataflows (Gen2) để kết nối với các nguồn dữ liệu khác nhau và thực hiện các phép biến đổi trong Power Query Online. Dataflows (Gen2) có thể được sử dụng trong Data Pipelines để nhập dữ liệu vào lakehouse hoặc các kho phân tích khác, hoặc để định nghĩa một tập dữ liệu cho báo cáo Power BI.
Giới thiệu về Dataflows (Gen2)
Dataflows (Gen2) là một công cụ quan trọng trong Microsoft Fabric, cho phép người dùng trích xuất, biến đổi và tải (ETL) dữ liệu từ nhiều nguồn khác nhau. Điều này giúp tối ưu hóa quy trình xử lý dữ liệu và dễ dàng tích hợp vào các ứng dụng phân tích.
Cấu trúc Bài Viết
- Tạo Workspace
- Tạo Lakehouse
- Tạo Dataflow (Gen2) để Nhập Dữ Liệu
- Thêm Điểm Đến Dữ Liệu cho Dataflow
- Thêm Dataflow vào Pipeline
- Thực Hành Tốt Nhất và Lưu Ý
- Câu Hỏi Thường Gặp (FAQ)
Tạo Workspace
Trước khi bắt đầu làm việc với dữ liệu trong Fabric, bạn cần tạo một workspace với chế độ thử nghiệm Fabric được kích hoạt.
- Truy cập trang chủ Microsoft Fabric tại đây và đăng nhập bằng thông tin tài khoản Fabric của bạn.
- Trong thanh menu bên trái, chọn Workspaces.
- Tạo một workspace mới với tên tùy chọn của bạn, chọn chế độ cấp phép bao gồm khả năng Fabric (Trial, Premium, hoặc Fabric).
- Khi workspace mới mở ra, bạn sẽ thấy nó trống rỗng.
Tạo Lakehouse
Bây giờ bạn đã có một workspace, hãy tạo một lakehouse để nhập dữ liệu vào.
- Trên thanh menu bên trái, chọn Create. Trong trang mới, dưới phần Data Engineering, chọn Lakehouse. Đặt tên cho lakehouse của bạn.
- Nếu tùy chọn Create không được ghim vào thanh bên, bạn cần chọn tùy chọn dấu ba chấm (…) trước.
- Sau khoảng một phút, một lakehouse mới sẽ được tạo ra.
Tạo Dataflow (Gen2) để Nhập Dữ Liệu
Sau khi đã có lakehouse, bạn cần nhập một số dữ liệu vào nó. Một cách để làm điều này là định nghĩa một dataflow bao gồm quy trình ETL.
- Trong trang chủ của lakehouse, chọn Get data > New Dataflow Gen2. Sau vài giây, trình chỉnh sửa Power Query cho dataflow mới của bạn sẽ mở ra.
- Chọn Import from a Text/CSV file, và tạo một nguồn dữ liệu với các thiết lập sau:
- Link to file: Được chọn
- File path or URL:
https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/orders.csv - Connection: Tạo kết nối mới
- data gateway: (none)
- Authentication kind: Anonymous
- Chọn Next để xem trước dữ liệu trong file, rồi chọn Create.
- Trình chỉnh sửa Power Query sẽ hiển thị nguồn dữ liệu và các bước truy vấn ban đầu để định dạng dữ liệu.
- Trên thanh công cụ, chọn tab Add column. Sau đó chọn Custom column và tạo một cột mới.
- Đặt tên cột mới là MonthNo, thiết lập kiểu dữ liệu là Whole Number và thêm công thức sau:
- Date.Month([OrderDate])
- Trong bảng cài đặt truy vấn ở phía bên phải, bạn sẽ thấy các bước đã áp dụng cho mỗi phép biến đổi.
- Kiểm tra và xác nhận rằng kiểu dữ liệu cho cột OrderDate được đặt là Date và kiểu dữ liệu cho cột mới tạo MonthNo được đặt là Whole Number.
Thêm Điểm Đến Dữ Liệu cho Dataflow
Trên thanh công cụ, chọn tab Home. Trong menu thả xuống Add data destination, chọn Lakehouse.
- Nếu tùy chọn này bị mờ, có thể bạn đã thiết lập một điểm đến dữ liệu. Kiểm tra điểm đến dữ liệu ở đáy bảng cài đặt truy vấn. Nếu một điểm đến mặc định đã được thiết lập, bạn có thể xóa nó và thêm một cái mới.
- Trong hộp thoại Connect to data destination, chỉnh sửa kết nối và đăng nhập bằng tài khoản tổ chức Power BI của bạn để thiết lập danh tính mà dataflow sẽ sử dụng để truy cập lakehouse. Chọn Next và trong danh sách các workspace có sẵn, tìm workspace của bạn và chọn lakehouse mà bạn đã tạo.
- Chỉ định một bảng mới có tên là orders.
- Chọn Next và ở trang cài đặt điểm đến, tắt tùy chọn Use automatic settings, chọn Append và sau đó chọn Save.
- Mở View và chọn Diagram view. Chú ý rằng điểm đến Lakehouse được chỉ định bằng một biểu tượng trong truy vấn.
- Trên thanh công cụ, chọn tab Home. Sau đó chọn Save & run và chờ đợi dataflow 1 được tạo ra trong workspace của bạn.
Thêm Dataflow vào Pipeline
Bạn có thể bao gồm một dataflow như một hoạt động trong một pipeline. Pipelines được sử dụng để điều phối các hoạt động nhập và xử lý dữ liệu, cho phép bạn kết hợp các dataflows với các loại hoạt động khác trong một quy trình đã lên lịch.
- Từ workspace đã kích hoạt Fabric của bạn, chọn + New item > Data pipeline, sau đó khi được nhắc, tạo một pipeline mới có tên Load data. Trình chỉnh sửa pipeline sẽ mở ra.
- Chọn Pipeline activity, và thêm một Dataflow activity vào pipeline.
- Với hoạt động Dataflow1 mới được chọn, trong tab Settings, trong danh sách thả xuống Dataflow, chọn Dataflow 1 (dataflow mà bạn đã tạo trước đó).
- Trên tab Home, lưu pipeline bằng biểu tượng 🖫 (Save).
- Sử dụng nút ▷ Run để chạy pipeline, và chờ đợi nó hoàn thành. Có thể mất vài phút.
- Trong thanh menu bên trái, chọn lakehouse của bạn.
- Trong menu … cho Tables, chọn refresh. Sau đó mở rộng Tables và chọn bảng orders, bảng đã được tạo bởi dataflow của bạn.
Trong Power BI Desktop, bạn có thể kết nối trực tiếp với các phép biến đổi dữ liệu đã thực hiện bằng dataflow của bạn thông qua trình kết nối Power BI dataflows (Legacy).
Thực Hành Tốt Nhất và Lưu Ý
- Thực hành tốt nhất: Luôn đảm bảo rằng dữ liệu được kiểm tra và xác thực trước khi đưa vào báo cáo hoặc phân tích.
- Cảnh báo: Nếu bạn gặp phải lỗi kết nối, hãy kiểm tra lại các thông tin xác thực và địa chỉ URL của nguồn dữ liệu.
- Lưu ý: Đảm bảo rằng bạn có quyền truy cập cần thiết vào các nguồn dữ liệu mà bạn sử dụng.
Câu Hỏi Thường Gặp (FAQ)
H1: Dataflow (Gen2) là gì?
Dataflow (Gen2) là công cụ trong Microsoft Fabric cho phép trích xuất, biến đổi và tải dữ liệu từ nhiều nguồn khác nhau một cách hiệu quả.
H2: Tôi có thể sử dụng Dataflows (Gen2) cho loại dữ liệu nào?
Bạn có thể sử dụng Dataflows (Gen2) cho bất kỳ loại dữ liệu nào mà bạn có quyền truy cập, bao gồm dữ liệu từ file CSV, cơ sở dữ liệu, và nhiều nguồn dữ liệu trực tuyến khác.
H3: Làm thế nào để tôi biết rằng Dataflow của tôi đã chạy thành công?
Bạn có thể kiểm tra trong giao diện Power Query hoặc trong Power BI Desktop để xác nhận rằng dữ liệu đã được nhập thành công.
Kết Luận
Dataflows (Gen2) trong Microsoft Fabric mở ra nhiều khả năng cho việc quản lý và phân tích dữ liệu. Bằng cách làm theo các bước được mô tả trong bài viết này, bạn có thể dễ dàng tạo, sử dụng và tích hợp các dataflows vào quy trình làm việc của mình. Hãy bắt đầu ngay hôm nay để tối ưu hóa quy trình xử lý dữ liệu của bạn!
Hãy thử nghiệm với Microsoft Fabric và khám phá sức mạnh của dữ liệu!