Download Dataset

Download Dataset

  1. Thực hiện download data set từ Kaggle.
  1. Sau khi download về máy cá nhân bạn hãy cấu trúc dữ liệu của bạn theo cấu trúc dưới đây:
 raw
    ├── TABLE-NAME-1
    │   ├── LOAD00000001.csv    
    │   └── LOAD00000002.csv           
    └── TABLE-NAME-2
        ├── LOAD00000001.csv    
        └── LOAD00000002.csv    
  • Cụ thể với Data set Airbnb listings chúng ta sẽ cấu trúc dữ liệu như sau:
 raw
    ├── listings
    │   ├── LOAD00000001.csv              
    └── reviews
        ├── LOAD00000001.csv      
  • Bạn có thể download data set đã được cấu trúc sẵn ở dưới đây.
  • raw.zip (103657 ko)
  • Cấu trúc dữ liệu của bạn trong Amazon S3 để mỗi bảng sẽ nằm trong một thư mục riêng biệt, với toàn bộ dữ liệu trong nhóm riêng biệt

    1. Tại giao diện Cloud9, click File.
    • Click Upload Local Files

    Datalake

    1. Kéo thả thư mục Data set đã cấu trúc vào vùng drag and drop.
    • Thư mục Data set sẽ đc upload vào Cloud 9 như dưới đây.

    Datalake

    Trong bước này, bạn đã tải Dataset thành công và upload lên Cloud9 instance.Tiếp theo chúng ta sẽ kiểm tra encoding để đảm bảo dữ liệu được encode dạng UTF-8.