Chuẩn bị table kế tiếp

Chuẩn bị table kế tiếp

Trong bước này chúng ta sẽ lặp lại tương tự các bước như với table listings cho table reviews.

Tạo Project

  1. Tại giao diện dịch vụ Glue DataBrew, click Create project.

  2. Đặt tên project là your-datalake-reviews.

  • Chúng ta sẽ thấy phần Recipe được lựa chọn mặc định Create new recipe với recipe name được đặt tự động theo project name là your-datalake-reviews-recipe.
  • Click chọn New dataset.
  1. Kéo màn hình xuống dưới, đặt tên Dataset là airbnb reviews.
  • Tại đường dẫn tới S3 bucket chọn đường dẫn tới thư mục reviews bạn đã upload lên.
  • Ví dụ : s3://yourname-0000-datalake/raw/reviews/
  • Click Select the entire folder.
  1. Tùy vào dữ liệu của bạn mà chúng ta sẽ chọn định dạng , ký tự phân chia các trường dữ liệu ( delimeter ) cũng như dữ liệu có bao gồm tên cột ở hàng đầu tiên hay không.
  • Trong trường hợp sử dụng Dataset đính kèm với workshop này (airbnb listings), chúng ta sẽ lựa chọn tùy chọn mặc định như sau:

Datalake

  1. Kéo màn hình xuống dưới, tại mục Permissions.
  • Click chọn AWSGlueDataBrewServiceRole-airbnb-dataset.
  • Click Create Project.

Datalake

  1. Click Skip tại giao diện giới thiệu tính năng của DataBrew.
  • Chờ vài phút để phiên làm việc của bạn được khởi tạo.

Transform Data

  1. Tại giao diện dịch vụ Glue Databrew, click vào mục Projects, sau đó click vào tên project your-datalake-reviews.

  2. Chúng ta sẽ tách thông tin năm và tháng từ cột date để phục vụ cho việc partition sau này.

  • Click biểu tượng của cột date.
  • Click Extract.
  • Click Value between position.

Datalake

  1. Thiết lập Starting position = 0 và Ending position = 4 để lấy 4 kí tự đầu tiên.
  • Thiết lập tên cột dữ liệu được extract ra là Year.
  • Click Apply.
  1. Làm tương tự bước 2,3 với Starting position = 5 và Ending position = 7 để extract ra cột month.

Datalake

  1. Click Create job để tạo job thực hiện clean và transform data.

  2. Đặt tên job là airbnb-reviews-cleantransform.

  • Chợn nơi xuất dữ liệu đã được lean và transform là S3 với đường dẫn sau s3://yourname-0000-datalake/cleantransform/.

Datalake

  1. Kéo màn hình xuống dưới, click chọn role AWSGlueDataBrewServiceRole-airbnb-dataset.
  • Click Create and run job.

Datalake

  1. Chúng ta có thể kiểm tra trạng thái job chạy ở mục Job.

Datalake

  1. Sau khi job hoàn tất , truy cập vào S3 bucket yourname-0000-datalake/cleantransform/** để xem dữ liệu sau khi clean và transform.

Datalake

  1. Click chọn dữ liệu csv đã thực hiện clean và transform.
  • Click Download.
  • Đặt tên file là LOAD000001.csv.

Datalake

  1. Đặt cấu trúc thư mục tương tự như dataset ban đầu của chúng ta.

Datalake

Chúng ta sẽ thực hiện tạo clean (làm sạch) và transform ( chuyển đổi dữ liệu ) cho dữ liệu của table reviews, tiếp theo chúng ta sẽ thực hiện upload dữ liệu đã clean lên S3 bucket.