Crawler cho transformed data

Thêm crawler cho transformed data

Trong bước này chúng ta sẽ thực hiện thêm crawler job để cập nhật metadata vào data catalog cho dữ liệu parquet sau khi được transform.

  1. Click vào job yourname-datalake-csvtoparquet.
  • Click Add trigger.

Datalake

  1. Click tab Add new.
  • Đặt tên là Trigger-Crawler-Parquet.
  • Click chọn Trigger type là Event.
  • Click chọn Start after ALL watched event.
  • Click Add. Datalake
  1. Click vào Trigger Trigger-Crawler-Parquet vừa tạo.
  • Click Add node.

Datalake

  1. Tại trang Add jobs and crawlers to watch, click chọn job yourname-datalake-csvtoparquet-reviews.
  • Click Add.
  1. Chúng ta sẽ thấy mũi tên chỉ tới Trigger Trigger-Crawler-Parquet từ cả 2 job chuyển đổi csv sang parquet như hình dưới.
  • Click vào Trigger Trigger-Crawler-Parquet.
  • Kéo thanh trượt qua bên phải.
  • Click Add node.

Datalake

  1. Click tab Crawlers.
  • Click chọn job yourname-datalake-parquet-crawler.
  • Click Add.

Datalake

  1. Chúng ta có thể thấy workflow hoàn chỉnh như dưới đây.

Datalake

  1. Chúng ta có thể thu nhỏ giao diện workflow lại để chuẩn bị chạy thử workflow và kiểm tra ở bước tiếp theo.

Datalake