Upload cleaned dataset

Upload cleaned dataset

Trong bước này chúng ta sẽ upload dataset chúng ta đã clean và transform lên lại S3 bucket của chúng ta.

Upload lên Cloud9

  1. Truy cập vào giao diện quản trị Cloud9
  • Click Open IDE.

Datalake

  1. Click Menu File, click Upload Local Files.
  • Kéo thả thư mục cleaned, chứa dữ liệu sau khi clean bạn đã download về ở bước trước.
  • Đảm bảo dữ liệu sau khi upload xong sẽ như hình.

Datalake

Bạn hãy đảm bảo quá trình upload dữ liệu hoàn tất trước khi thực hiện bước tiếp theo.

Bạn có thể download dữ liệu đã clean và đã cấu trúc thư mục dưới đây để sử dụng, hoặc tham khảo đối chiếu.

  1. Tại giao diện terminal của Cloud9 chạy câu lệnh sau để upload cleaned dataset lên S3 bucket.
aws s3 cp ./cleaned s3://yourname-0000-datalake/cleaned --recursive

Datalake

  1. Kiểm tra dữ liệu đã được upload thành công, lên S3 bucket trước khi thực hiện bước kế tiếp.

Datalake