Crawler cho transformed data
Trong bước này chúng ta sẽ thực hiện thêm crawler job để cập nhật metadata vào data catalog cho dữ liệu parquet sau khi được transform.
- Click vào job yourname-datalake-csvtoparquet.
- Click tab Add new.
- Đặt tên là Trigger-Crawler-Parquet.
- Click chọn Trigger type là Event.
- Click chọn Start after ALL watched event.
- Click Add.
- Click vào Trigger Trigger-Crawler-Parquet vừa tạo.
- Tại trang Add jobs and crawlers to watch, click chọn job yourname-datalake-csvtoparquet-reviews.
- Chúng ta sẽ thấy mũi tên chỉ tới Trigger Trigger-Crawler-Parquet từ cả 2 job chuyển đổi csv sang parquet như hình dưới.
- Click vào Trigger Trigger-Crawler-Parquet.
- Kéo thanh trượt qua bên phải.
- Click Add node.
- Click tab Crawlers.
- Click chọn job yourname-datalake-parquet-crawler.
- Click Add.
- Chúng ta có thể thấy workflow hoàn chỉnh như dưới đây.
- Chúng ta có thể thu nhỏ giao diện workflow lại để chuẩn bị chạy thử workflow và kiểm tra ở bước tiếp theo.