Fundamentals of Data Engineering 輪読会資料第4回分 20230508開催

①担当箇所の要約

【データアーキテクチャの例と種類】

自分にとって最適的なアーキテクチャを考える上でいくつかの例を見る。

【データウェアハウス】

<導入>

・一番有名なアーキテクチャ。
・Inmonによって考案された。

➡定義は青木峰郎著『10年戦えるデータ分析入門』を参照。
※勉強会では補足めもを参照
・技術は進歩しているが、中心的な概念は変わらない。
(The cloud data warehouseの部分で詳細)
・オンプレミスからクラウドに移行できるようになり、多くの企業で導入しやすくなった。
・ organizational データウェアハウスと technicalデータウェアハウスの2種類がある。

<organizational data warehouse>

organizational data warehouseの特徴

・データ分析基盤とビジネス向けのシステムの分離???
・データの集約と整理：具体的にはfigure3.10を参照。

データ元➡ETLツール➡(変換した上で格納)DWH➡DMの流れで処理される。

<technical data warehouse>

・一度ローデータを(変換せず)stagingに格納し、その後変換してDWHに格納するというELTの処理となっている(organizational data warehouseでは「ETL」で処理)。具体的にはfigure3.11を参照。

・この変換にクラウドの計算能力(MPP)の利用が意図されている。

<The cloud data warehouse>

・オンプレからクラウドへの移管が進んだ。その背景としてAWSによりスケーラブルなクラウド環境が提供され、追随したGCPやSnowflakeによりストレージと計算が分離されストレージの拡張するなど、クラウドを使ったデータ分析基盤が発展がある。
・(導入の通り、)技術面は発展したが、中心的な定義は変わらず、その範囲が拡張していると言える。

<Data marts>

・分析に特化した個別のデータセット。
・データマートには「ビジネスサイドでも利用しやすい」「パフォーマンスを上昇させる」といったメリットがある。

➡後者のイメージとしてダッシュボードツールのパフォーマンスがイメージされた。

【データレイク】

<導入>

・(DWHが構造化データを対象としていたのに対し、)データレイクは非構造化データと構造化データをまとめて保管する。
・データレイク1.0は少し欠陥があった。
_むやみにデータが格納された。また書き込み専用であり、(GDPR対応に必要な)データ削除に反する
_データの処理も苦手???

(以下文意が取れなかったため、私の解釈を記載)

～～～～～～～～～～～

①joinなどの簡単な処理も苦戦した。
②PigやHiveにより多少解決したが、data managementの問題は残った。
＝deleteやupdateといった処理はDMLでも苦手で、新しいテーブルを作ることでその場しのぎの対応をしている。
裏返すと、DWHは基本的なデータ保持向きでSQLは詳細なクエリを実行するのに有効なツールといえる。

～～～～～～～～～～～

➡文の繋がりと最終文の「the latter」が怪しい。最終的にData martをかばってる？

(解釈部分終了)

_技術やコスト要求もあり、データの民主化には程遠い状況だった。

_一部の企業(ネトフリやFB)ではうまくいくこともあった。

②不明点・確認点

・「Separates online analytical processing (OLAP) from production databases (online trans‐action processing)」が何を指すのか不明である。
・technical data warehouseの最後にある「virtuous cycle」が不明。
・organizationalDWHのstagingとData Lakeの違いは「構造化データを格納するかどうか」という点がメインか確認したい。
←日本の書籍では図3.11の形を「DataLake➡DWH➡DataMart」として紹介していることが多い印象。
・データマート中盤の「Processing data was also challenging.」から始まる段落がいまいち整理できなかった。特にどういった処理が苦手で、その内どの部分は解決したかがいまいち不明。