Ingestion với AWS Glue
Ingestion với AWS Glue
Trong phần này chúng ta sẽ thực hiện các bước:
- Cấu hình Role Permissions cho các tài nguyên chúng ta sử dụng.
- Tạo Data catalog từ cleaned dataset của chúng ta với AWS Glue Crawler.
- Transform CSV dataset sang Apache Parquet format, sử dụng AWS Glue jobs.
- Tạo Data catalog cho dữ liệu được chuyển sang dạng Apache Parquet.
- Kiểm tra thông tin Schema.
Mục tiêu của chúng ta là chuẩn bị dữ liệu sẵn sàng để thực hiện truy vấn sử dụng Amazon Athena.
Nội dung
- Cấu hình role cho AWS Glue
- Tạo Data catalog
- Tranform sang Parquet
- Tranform sang Parquet-2
- Tạo Data catalog mới
- Kiểm tra thông tin Schema