Cài đặt DataBrew

Cài đặt DataBrew

Trong bước này chúng ta sẽ cấu hình AWS Glue DataBrew project, đó mà một không gian làm việc tương tác hỗ trợ cho việc chuẩn bị dữ liệu. Trong bước này chúng ta sẽ tạo:

  • Dataset (tập dữ liệu).
  • Recipe: một tập các hành động trên dữ liệu mà DataBrew sẽ thực thi. Recipe sẽ chia ra thành các step và mỗi step có thể bao gồm nhiều hành động.Trong bước này chúng ta chỉ tạo step mà không thêm vào hành động cụ thể, chúng ta sẽ thêm hành động cụ thể ở phần sau.
  1. Truy cập vào giao diện Cloud9.

  2. Glue Data trong mục tìm kiếm, sau đó click AWS Glue DataBrew để truy cập giao diện dịch vụ Glue DataBrew.

Datalake

  1. Tại giao diện dịch vụ Glue DataBrew, click Create project.

Datalake

  1. Đặt tên project là your-datalake-listings.
  • Chúng ta sẽ thấy phần Recipe được lựa chọn mặc định Create new recipe với recipe name được đặt tự động theo project name là your-datalake-listings-recipe.
  • Click chọn New dataset.

Datalake

  1. Kéo màn hình xuống dưới, đặt tên Dataset là airbnb listings.
  • Tại đường dẫn tới S3 bucket chọn đường dẫn tới thư mục listings bạn đã upload lên.
  • Ví dụ : s3://yourname-0000-datalake/raw/listings/
  • Click Select the entire folder.

Datalake

  1. Tùy vào dữ liệu của bạn mà chúng ta sẽ chọn định dạng , ký tự phân chia các trường dữ liệu ( delimeter ) cũng như dữ liệu có bao gồm tên cột ở hàng đầu tiên hay không.
  • Trong trường hợp sử dụng Dataset đính kèm với workshop này (airbnb listings), chúng ta sẽ lựa chọn tùy chọn mặc định như sau:

Datalake

  1. Kéo màn hình xuống dưới, tại mục Permissions.
  • Click chọn Create new IAM role.
  • Đặt hậu tố ( suffix ) cho role là airbnb-dataset.

Datalake

  1. Click Skip tại giao diện giới thiệu tính năng của DataBrew.
  • Chờ vài phút để phiên làm việc của bạn được khởi tạo.

Datalake

Bước tiêp theo chúng ta sẽ thực hiện tạo data profile để sinh ra các thông tin thống kê cho dataset của chúng ta.