11. データレイクを基軸とした分析基盤の論理
アーキテクチャ
Raw Data Pond
Middle Layer Pond
Active Data Pond Data
Warehouse
Data
Mart
Data
Mart
Machine
Learning
収集元
蓄積(データレイク)
分析 可視化
ETL
Message
Queue
Pub/sub
Message
Realtime
SQL
Batch
(FTP..)
Data
Mart
BI
Report
Files
MapReduce
D
a
t
a
C
a
t
a
l
o
g
s
Data
Mart
33. データレイクを基軸とした分析基盤の論理
アーキテクチャ
Raw Data Pond
Middle Layer Pond
Active Data Pond Data
Warehouse
Data
Mart
Data
Mart
Machine
Learning
収集元
蓄積(データレイク)
分析 可視化
ETL
Message
Queue
Pub/sub
Message
Realtime
SQL
Batch
(FTP..)
Data
Mart
BI
Report
Files
MapReduce
D
a
t
a
C
a
t
a
l
o
g
s
Data
Mart
53. データレイクを基軸とした分析基盤の論理
アーキテクチャ
Raw Data Pond
Middle Layer Pond
Active Data Pond Data
Warehouse
Data
Mart
Data
Mart
Machine
Learning
収集元
蓄積(データレイク)
分析 可視化
ETL
Message
Queue
Pub/sub
Message
Realtime
SQL
Batch
(FTP..)
Data
Mart
BI
Report
Files
MapReduce
D
a
t
a
C
a
t
a
l
o
g
s
Data
Mart
96. データレイクを基軸とした分析基盤の論理
アーキテクチャ
Raw Data Pond
Middle Layer Pond
Active Data Pond Data
Warehouse
Data
Mart
Data
Mart
Machine
Learning
収集元
蓄積(データレイク)
分析 可視化
ETL
Message
Queue
Pub/sub
Message
Realtime
SQL
Batch
(FTP..)
Data
Mart
BI
Report
Files
MapReduce
D
a
t
a
C
a
t
a
l
o
g
s
Data
Mart
スキーマオンリード(Schema on Read) vs スキーマオンライト(Schema on Write) — データウェアハウスのスキーマは、格納の前に定義され、構造化されています(スキーマはデータの書き込み中に適用されます)。対照的に、データレイクは事前定義されたスキーマを持たないため、ネイティブの形式でデータを格納できます。したがって、データウェアハウスでは通常、データプレパレーションの大半が処理前に行われます。データレイクの場合は、データが後で実際に使用されるときに実行されます。