Xây dựng Datalake với dữ liệu của bạn > Ingestion với AWS Glue

Ingestion với AWS Glue

Trong phần này chúng ta sẽ thực hiện các bước:

Cấu hình Role Permissions cho các tài nguyên chúng ta sử dụng.
Tạo Data catalog từ cleaned dataset của chúng ta với AWS Glue Crawler.
Transform CSV dataset sang Apache Parquet format, sử dụng AWS Glue jobs.
Tạo Data catalog cho dữ liệu được chuyển sang dạng Apache Parquet.
Kiểm tra thông tin Schema. Mục tiêu của chúng ta là chuẩn bị dữ liệu sẵn sàng để thực hiện truy vấn sử dụng Amazon Athena.