Thêm crawler

Thêm crawler

Trong bước này chúng ta sẽ thực hiện thêm crawler job vào workflow chúng ta đã tạo.

  1. Tại giao diện quản lý workflow, đảm bảo bạn đang chọn workflow yourname-datalake.
  • Click Add node.

Datalake

  1. Click tab Crawlers.
  • Click chọn yourname-datalake-crawler để chọn job crawler cho dữ liệu csv.
  • Click Add. Datalake
  1. Kiểm tra job crawler đã được thêm vào như hình dưới.

Datalake

  1. Click vào job crawler vừa thêm, click Add trigger.

Datalake

  1. Click tab Add new, đặt tên là Trigger-Job-Parquet.
  • Click chọn Start after ANY watched event.
  • Click Add.

Datalake

Chúng ta đã thêm job crawler để thực hiện cập nhật metadata vào catalog cho dữ liệu csv. Tiếp theo chúng ta sẽ thêm các job transform dữ liệu csv sang parquet.