Columnar vs Row based

Columnar vs Row based

Apache Parquet là một định dạng lưu trữ dạng cột (columnar) phổ biến được tối ưu hóa để truy xuất dữ liệu nhanh chóng và được sử dụng trong các ứng dụng phân tích trên nền tảng AWS. Parquet và các định dạng lưu trữ dạng cột phổ biến khác có ba lợi ích chính khiến chúng phù hợp để sử dụng với Athena;

  • Khả năng nén dữ liệu theo cột, qua đó giúp tốc độ truy vấn nhanh hơn , chi phí lưu trữ , chi phí thực hiện truy vấn thấp hơn.
  • Tính năng bỏ qua các block dữ liệu cho phép truy vấn Athena chỉ tìm nạp các block dữ liệu cần thiết qua đó cải thiện hiệu suất truy vấn.
  • Việc chia nhỏ dữ liệu cho phép Athena chia việc đọc dữ liệu cho nhiều Athena readers và tăng khả năng xử lý song song trong quá trình xử lý truy vấn.
  1. Click chọn database yourname-datalake-parquet-db. ( Dữ liệu dạng Columnar - Parquet )
  • Thực hiện truy vấn câu query dưới đây.
select reviews.listing_id,reviews.review_id 
from reviews
where reviews.year = 2019;

Datalake

  1. Click chọn database yourname-datalake-db. ( Dữ liệu dạng Row base - CSV )
  • Thực hiện truy vấn câu query dưới đây.
select reviews.listing_id,reviews.review_id 
from reviews
where reviews.year = 2019;

Datalake

Chúng ta có thể so sánh lượng dữ liệu scan của 2 trường hợp, ở trường hợp sử dụng CSV chúng ta sẽ phải trả chi phí scan dữ liệu gấp 10 lần.