Chuẩn bị Data

Chuẩn bị Data

AWS Glue DataBrew là công cụ chuẩn bị dữ liệu trực quan giúp các nhà phân tích dữ liệu, nhà khoa học dữ liệu và người dùng không chuyên về kỹ thuật dễ dàng chuẩn bị dữ liệu với giao diện trực quan tương tác, giảm bớt công sức lập trình.

Với Glue DataBrew, bạn có thể dễ dàng biễu diễn, làm sạch và chuẩn hóa hàng terabyte, và thậm chí là petabyte dữ liệu trực tiếp từ datalake, datawarehouse và database của bạn. Bạn có thể tạo dataset bằng cách sử dụng bất kỳ nguồn dữ liệu nào như; Amazon S3, AWS Glue Data Catalog (Amazon Redshift, Amazon Aurora và Amazon RDS), AWS Data Exchange. Để biết thêm thông tin về Nguồn dữ liệu được hỗ trợ trên DataBrew, hãy xem Tạo và sử dụng bộ dữ liệu AWS Glue DataBrew.

Dưới đây là kiến trúc tham khảo, dữ liệu thô của chúng ta đã được lưu trong Amazon S3 dưới dạng CSV. Chúng ta sẽ sử dụng Glue DataBrew để đọc và chuẩn bị dữ liệu và viết dữ liệu đã được chuyển đổi vào Amazon S3 bucket khác.

Datalake

Nội dung

  1. Cài đặt DataBrew
  2. Data Profiling
  3. Clean & Transform
  4. Chuẩn bị table kế tiếp
  5. Upload Cleaned Dataset