Clean & Tranform data

Clean & Tranform data

Làm sạch và chuyển đổi dữ liệu là những bước hết sức quan trọng trong việc đem lại giá trị từ dữ liệu. Làm sạch dữ liệu là quá trình loại bỏ dữ liệu không cần thiết. Chuyển đổi dữ liệu là quá trình chuyển đổi dữ liệu từ một định dạng hoặc cấu trúc sang một định dạng cấu trúc khác phù hợp và thuận tiện hơn cho việc phân tích, tổ chức dữ liệu.

  1. Click vào mục Projects, sau đó click vào tên project your-datalake-listings.

Datalake

  1. Kéo thanh trượt sang bên phải để xem thêm các cột. Chúng ta sẽ tiến hành xóa các cột không chứa dữ liệu.
  • Click chọn cột host_reponse_time.
  • Click biểu tượng COLUMN.
  • Click Delete.

Datalake

  1. Tại mục Source columns, chọn thêm các cột host_response_rate và host_acceptance_rate.
  • Click Apply.

Datalake

  1. Tiếp theo chúng ta sẽ tách thông tin năm và tháng từ cột hosted_since để phục vụ cho việc partition sau này.
  • Click biểu tượng của cột hosted_since.
  • Click Extract.
  • Click Value between position.

Datalake

  1. Thiết lập Starting position = 0 và Ending position = 4 để lấy 4 kí tự đầu tiên.
  • Thiết lập tên cột dữ liệu được extract ra là Year.
  • Click Apply.

Datalake

  1. Làm tương tự bước 4,5 với Starting position = 5 và Ending position = 7 để extract ra cột month.

Datalake

  1. Click Create job để tạo job thực hiện clean và transform data.

Datalake

  1. Đặt tên job là airbnb-listings-cleantransform.
  • Chợn nơi xuất dữ liệu đã được lean và transform là S3 với đường dẫn sau s3://yourname-0000-datalake/cleantransform/.

Datalake

  1. Kéo màn hình xuống dưới, click chọn role AWSGlueDataBrewServiceRole-airbnb-dataset.
  • Click Create and run job.

Datalake

  1. Chúng ta có thể kiểm tra trạng thái job chạy ở mục Job.

Datalake

  1. Sau khi job hoàn tất , truy cập vào S3 bucket yourname-0000-datalake/cleantransform/** để xem dữ liệu sau khi clean và transform.

Datalake

  1. Click chọn dữ liệu csv đã thực hiện clean và transform.
  • Click Download.
  • Đặt tên file là LOAD000001.csv.

Datalake

  1. Đặt cấu trúc thư mục tương tự như dataset ban đầu của chúng ta.

Datalake

Chúng ta sẽ thực hiện tạo clean (làm sạch) và transform ( chuyển đổi dữ liệu ) cho dữ liệu của table listings, tiếp theo chúng ta sẽ thực hiện tương tự cho table reviews.