Giới thiệu Glue

AWS Glue là gì

  • Là dịch vụ Serverless giúp quản lý: Extract, Transform và Load (ETL) dữ liệu. Hữu ích với việc chuẩn bị, transform dữ liệu phục vụ cho analytics

AWS Glue là gì

Glue Data Catalog trong AWS

  • Glue Data Catalog là nơi lưu trữ metadata của data nguồn
  • Ví dụ bạn muốn transform dữ liều từ Amazon RDS:
    • Step 1: Crawler sẽ thực hiện crawl dữ liệu của Database trên RDS, crawler sẽ lấy được dữ liệu như (schema, định nghĩa của table, các table...)
    • Sau khi crawl, thông tin metadata sẽ được lưu vào Data Catalog theo dạng bảng
    • Dữ liệu trên Catalog này sẽ được sử dụng bởi: Glue Jobs (ETL), hay Amazon Athena...

Glue Data Catalog

Bài trước
left Bài trước
left Giới thiệu Redshift
Bài tiếp theo
Giới thiệu Neptune right
Bài tiếp theo right
Avatar Phan Văn Đức
VIẾT BỞI

Phan Văn Đức