Giới thiệu Glue

0 phút đọc

AWS Glue là gì

  • Là dịch vụ Serverless giúp quản lý: Extract, Transform và Load (ETL) dữ liệu. Hữu ích với việc chuẩn bị, transform dữ liệu phục vụ cho analytics
AWS Glue là gì

Glue Data Catalog trong AWS

  • Glue Data Catalog là nơi lưu trữ metadata của data nguồn
  • Ví dụ bạn muốn transform dữ liều từ Amazon RDS:
    • Step 1: Crawler sẽ thực hiện crawl dữ liệu của Database trên RDS, crawler sẽ lấy được dữ liệu như (schema, định nghĩa của table, các table...)
    • Sau khi crawl, thông tin metadata sẽ được lưu vào Data Catalog theo dạng bảng
    • Dữ liệu trên Catalog này sẽ được sử dụng bởi: Glue Jobs (ETL), hay Amazon Athena...
Glue Data Catalog
Avatar TechMely Team
Được viết bởi

TechMely Team

Muốn đổi thói quen, phải thay hành động.
Khoá học javascript từ cơ bản đến chuyên sâuYoutube Techmely