Giới Thiệu Về AWS Glue Data Catalog và AWS Athena
Khi công nghệ dữ liệu phát triển, việc quản lý và truy vấn dữ liệu trở thành một thách thức lớn đối với các doanh nghiệp. AWS cung cấp hai dịch vụ ưu việt giúp đơn giản hóa quy trình này: AWS Glue Data Catalog và AWS Athena.
AWS Glue Data Catalog
Tổng Quan Về AWS Glue Data Catalog
AWS Glue Data Catalog là một kho lưu trữ metadata tập trung, cho phép người dùng dễ dàng khám phá và sử dụng dữ liệu. Nó cung cấp một giao diện truy vấn thống nhất cho tất cả các tài sản dữ liệu và hỗ trợ quản lý phiên bản dữ liệu hiệu quả.
Lợi Ích Của AWS Glue Data Catalog
- Khám Phá Dữ Liệu Dễ Dàng: Giúp người dùng tiết kiệm thời gian trong việc tìm kiếm và khám phá các tập dữ liệu có sẵn.
- Quản Lý Phiên Bản Tốt Hơn: Theo dõi các phiên bản thay đổi của dữ liệu, giữ cho dữ liệu luôn chính xác và nhất quán.
- Giao Diện Truy Vấn Thống Nhất: Mang đến trải nghiệm truy vấn đồng nhất cho tất cả tài sản dữ liệu, giúp việc phân tích dễ dàng hơn.
- Tích Hợp Dữ Liệu Hiệu Quả: Tạo một kho lưu trữ metadata đồng nhất từ nhiều nguồn khác nhau.
AWS Athena
Định Nghĩa AWS Athena
AWS Athena là dịch vụ phân tích dữ liệu mà bạn có thể sử dụng để chạy các truy vấn SQL trực tiếp trên các tập tin trong Amazon S3 mà không yêu cầu thiết lập máy chủ. Athena hỗ trợ nhiều định dạng file như CSV, JSON, Parquet, ORC và Avro, tính phí theo lượng dữ liệu được quét.
Lợi Ích Khi Sử Dụng AWS Athena
- Truy Vấn SQL Trực Tiếp: Giúp bạn phân tích dữ liệu nhanh chóng mà không cần phải di chuyển dữ liệu.
- Dịch Vụ Không Cần Máy Chủ: Tiết kiệm công sức quản lý hạ tầng.
- Chi Phí Tối Ưu: Bạn chỉ trả tiền cho dữ liệu bạn quét.
- Hỗ Trợ Định Dạng File Đa Dạng: Dễ dàng làm việc với dữ liệu có cấu trúc và bán cấu trúc.
Hướng Dẫn Thực Hành Sử Dụng AWS Glue Data Catalog và AWS Athena
Bước 1: Tìm Dataset "World University Rankings 2023" Trên Kaggle
- Truy cập Kaggle và tìm kiếm "World University Rankings 2023".
- Tải file dataset về máy tính.
Bước 2: Tải File Lên Amazon S3
- Mở AWS Management Console và tạo một bucket mới trong S3.
- Tải file dataset lên bucket vừa tạo.
Bước 3: Tạo IAM Role Cho AWS Glue
- Tạo IAM role mới cho AWS Glue để cung cấp quyền truy cập cần thiết.
Bước 4: Tạo Glue Crawler
- Thêm crawler mới trong AWS Glue, thiết lập nguồn dữ liệu và IAM role.
- Chọn database để lưu trữ metadata từ crawler.
Bước 5: Chạy Glue Crawler
- Chạy crawler để quét và thu thập metadata.
Bước 6: Xem Bảng Được Tạo Từ AWS Glue Crawler
- Kiểm tra bảng vừa tạo trong database để xem cấu trúc và metadata.
Bước 7: Truy Vấn Dữ Liệu Với AWS Athena
- Mở giao diện Amazon Athena và chọn database mà bạn đã tạo.
- Sử dụng câu lệnh SQL để truy vấn dữ liệu:
- Truy vấn 10 trường đại học hàng đầu theo điểm tổng quát:
SELECT * FROM "university_ranking_database"."university_ranking_eric" LIMIT 10;
- Truy vấn trường đại học có tỷ lệ sinh viên quốc tế cao:
SELECT "name of university", "international student" FROM "university_ranking_database"."university_ranking_eric" ORDER BY "international student" DESC LIMIT 5;
- Tìm trường đại học có điểm nghiên cứu cao nhất tại một địa điểm:
SELECT "name of university", "research score" FROM "university_ranking_database"."university_ranking_eric" WHERE "location" = 'United States' ORDER BY "research score" DESC LIMIT 5;
- Tìm trường đại học với tỷ lệ nữ cao:
SELECT "name of university", "female:male ratio" FROM "university_ranking_database"."university_ranking_eric" ORDER BY "female:male ratio" DESC LIMIT 5;
- Tìm các trường đại học có điểm giảng dạy và nghiên cứu cao:
SELECT "name of university", "teaching score", "research score" FROM "university_ranking_database"."university_ranking_eric" ORDER BY "teaching score" DESC, "research score" DESC LIMIT 10;
- Truy vấn 10 trường đại học hàng đầu theo điểm tổng quát:
Kết Luận
Sử dụng AWS Glue Data Catalog và AWS Athena giúp bạn tổ chức và phân tích dữ liệu một cách hiệu quả, tiết kiệm thời gian và công sức, đồng thời tối ưu hóa chi phí. Với sự kết hợp của hai dịch vụ này, việc quản lý dữ liệu trở nên dễ dàng hơn bao giờ hết.
source: viblo