Giới thiệu Glue

0 phút đọc

AWS Glue là gì

  • Là dịch vụ Serverless giúp quản lý: Extract, Transform và Load (ETL) dữ liệu. Hữu ích với việc chuẩn bị, transform dữ liệu phục vụ cho analytics
AWS Glue là gì

Glue Data Catalog trong AWS

  • Glue Data Catalog là nơi lưu trữ metadata của data nguồn
  • Ví dụ bạn muốn transform dữ liều từ Amazon RDS:
    • Step 1: Crawler sẽ thực hiện crawl dữ liệu của Database trên RDS, crawler sẽ lấy được dữ liệu như (schema, định nghĩa của table, các table...)
    • Sau khi crawl, thông tin metadata sẽ được lưu vào Data Catalog theo dạng bảng
    • Dữ liệu trên Catalog này sẽ được sử dụng bởi: Glue Jobs (ETL), hay Amazon Athena...
Glue Data Catalog

Bình luận

Chưa có bình luận nào

Chưa có bình luận nào

Avatar TechMely Team
Được viết bởi

TechMely Team

Lòng tin cũng giống như một tờ giấy, khi đã nhàu nát sẽ không bao giờ phẳng phiu được.
Khoá học javascript từ cơ bản đến chuyên sâuYoutube Techmely