Thêm crawler
Thêm crawler
Trong bước này chúng ta sẽ thực hiện thêm crawler job vào workflow chúng ta đã tạo.
- Tại giao diện quản lý workflow, đảm bảo bạn đang chọn workflow yourname-datalake.
- Click tab Crawlers.
- Click chọn yourname-datalake-crawler để chọn job crawler cho dữ liệu csv.
- Click Add.
- Kiểm tra job crawler đã được thêm vào như hình dưới.
- Click vào job crawler vừa thêm, click Add trigger.
- Click tab Add new, đặt tên là Trigger-Job-Parquet.
- Click chọn Start after ANY watched event.
- Click Add.
Chúng ta đã thêm job crawler để thực hiện cập nhật metadata vào catalog cho dữ liệu csv. Tiếp theo chúng ta sẽ thêm các job transform dữ liệu csv sang parquet.