Ingestion với AWS Glue

Ingestion với AWS Glue

Trong phần này chúng ta sẽ thực hiện các bước:

  • Cấu hình Role Permissions cho các tài nguyên chúng ta sử dụng.
  • Tạo Data catalog từ cleaned dataset của chúng ta với AWS Glue Crawler.
  • Transform CSV dataset sang Apache Parquet format, sử dụng AWS Glue jobs.
  • Tạo Data catalog cho dữ liệu được chuyển sang dạng Apache Parquet.
  • Kiểm tra thông tin Schema. Mục tiêu của chúng ta là chuẩn bị dữ liệu sẵn sàng để thực hiện truy vấn sử dụng Amazon Athena.

Nội dung

  1. Cấu hình role cho AWS Glue
  2. Tạo Data catalog
  3. Tranform sang Parquet
  4. Tranform sang Parquet-2
  5. Tạo Data catalog mới
  6. Kiểm tra thông tin Schema