Byte Ebi 🍤

每天一小口，蝦米變鯨魚

[大話 AWS 雲端架構筆記] Kinesis、EMR 與 Redshift

簡介 Kinesis、EMR 與 Redshift 的使用方法和運作機制

2023/10/27

Ray

用於大數據架構

graph LR;
資料接收-->資料處理-->資料倉儲;

Kinesis ：專門做大數據的搜集與串流，支援兩大數據類型

負責上傳資料到 Kinesis 的一方，例如各種感測器被稱為Kinesis Producer
產出來的數據稱作Data Record，會存放到 Kinesis Stream 裡面

在 Stream 中有多個「分片(Shard)」，負責做數據的分散緩衝
當數據流量提升時，需要增加 Shard 數量確保足夠的處理速度
每個 Shard 每秒最多寫入 1000 筆數據，總和不超過 1MB
每秒最多讀取總和不超過 2MB

提取數據操作的系統被稱作Kinesis Consumer

AWS EMR 的底層引擎是開源大數據處理系統 Hadoop
是最常見的 Kinesis Consumer，是 Hadoop 的 AWS 雲端版本

服務的底層是 EC2 Instance
能透過 SSH 連進 EMR 內的作業系統進行操作

整理後的資料會送到S3 或是 Redshift

Redshift ：資料分析用的大數據資料倉儲，是一個 column-base 的叢集化資料庫

主要用途：