Xây dựng Datalake với dữ liệu của bạn > Ingestion với AWS Glue > Tạo Data catalog mới

Tạo Data catalog mới

Tạo Data catalog

Truy cập vào dịch vụ AWS Glue

Click Crawlers.
Click Add crawler.

DataLake

Tại trang Add information about your crawler.

Đặt tên Crawler name là yourname-datalake-parquet-crawler.
Click Next.

Tại trang Specify crawler source type

Giữ nguyên tùy chọn mặc định.
- Crawler source type : Data stores.
- Repeat crawls of S3 data stores : Crawl all folders.
Click Next.

DataLake

Tại trang Add a data store.

Giữ nguyên tùy chọn S3 tại Choose a data store.
Tại mục Include path điền đường dẫn tới dataset cleaned chúng ta đã upload lên S3.
- Ví dụ: s3://yourname-0000-datalake/parquet/
Click Next.

Tại trang Add another data store.

Giữ nguyên lựa chọn No.
Click Next.

DataLake

Tại trang Choose an IAM role.

Click chọn Choose an existing IAM role.
Tại mục IAM Role, chọn role AWSGlueServiceRole-yourname-datalake.
Click Next.

DataLake

Tại trang Create a schedule for this crawler.

Giữ nguyên tùy chọn Run on demand.
Click Next.

Tại trang Configure the crawler’s output

Click Add database.
Điền Database name là yourname-datalake-parquet-db.
Click Next.
Click Finish để tiến hành tạo Crawler.

DataLake

Click chọn yourname-datalake-crawler.

Click Run crawler.
Kiểm tra Crawler chạy thành công như hình dưới.

DataLake

DataLake

Ở bước này chúng ta đã tạo Crawler job để khám phá dữ liệu và lưu thông tin metadata vào Glue data catalog cho dữ liệu đã được chuyển sang parquet.

DataLake