Khóa học awsAWS Glue là gì
- Là dịch vụ Serverless giúp quản lý: Extract, Transform và Load (ETL) dữ liệu. Hữu ích với việc chuẩn bị, transform dữ liệu phục vụ cho analytics
Glue Data Catalog trong AWS
- Glue Data Catalog là nơi lưu trữ metadata của data nguồn
- Ví dụ bạn muốn transform dữ liều từ Amazon RDS:
- Step 1: Crawler sẽ thực hiện crawl dữ liệu của Database trên RDS, crawler sẽ lấy được dữ liệu như (schema, định nghĩa của table, các table...)
- Sau khi crawl, thông tin metadata sẽ được lưu vào Data Catalog theo dạng bảng
- Dữ liệu trên Catalog này sẽ được sử dụng bởi: Glue Jobs (ETL), hay Amazon Athena...
Gợi ý câu hỏi phỏng vấn
Không có dữ liệu
Gợi ý bài viếtKhông có dữ liệu