はじめに
ここではデータ分析のための分析基盤を構築する際に参考になる書籍の比較と紹介していく。この記事の構成としては、初めに詳細する本のマッピング、次に個々の本の説明、最後にそれぞれの本の情報を繋ぐ2つの図の紹介を行う。データ基盤は情報の幅が広いため、最後の有用な2つの図を使うことで、知識を整理することができる。
データ基盤関連の書籍の整理
データ基盤書籍のマッピング
ここではデータ基盤関連書籍の本を横軸にビジネス・技術、縦軸に難易度としてマッピングしている。データ基盤の依頼者や意思決定者はビジネス寄りの本がおすすめで、自分でも構築を目指す人は技術寄りの本にも触れることをおすすめする。
個別の書籍紹介
ここから1冊ずつ書籍を紹介していく。個人的には入門する際は全体像を描くことがポイントになると思うので、俯瞰的な説明をしている箇所を中心に特徴を紹介していく。
実践的データ基盤への処方箋
1冊目は「実践的データ基盤への処方箋」である。データ基盤を「設計面」「技術面」「組織面」の3つの観点から解説している。特に第一歩として、データ基盤の外観を把握するには第1章データ活用のためのデータ整備が参考になる。
<Amazonリンク>
実践的データ基盤への処方箋
※著者側からの本の位置づけは下記とのこと。
「自分の本を最初に読んでね」「この本は最後でいいよ」と言われてしまった側の書籍の著者として、念のため自著の存在意義をアピールしておくと『実践的データ基盤への処方箋』はこういう位置付けかなと思います。https://t.co/KHbClyN3pQ https://t.co/PtFHQYqv7I pic.twitter.com/nEuuGZ42oD
— ゆずたそ / Sho Yokoyama (風音屋) (@yuzutas0) December 30, 2021
データマネジメントが30分でわかる本
2冊目は「データマネジメントが30分でわかる本」である。この本は(「データ基盤を整理する上で重要な2つの図」の段落で触れる)DMBOKホイール図の11領域に対応する形で幅広いトピックを扱っている。各領域でどういったことをすべきか具体的に書かれているため、「実践的データ基盤への処方箋」や「DXを成功に導くデータマネジメント」で学んだ理論の実現の際の参考になる。
<Amazonリンク>
データマネジメントが30分でわかる本
DXを成功に導くデータマネジメント
3冊目は「DXを成功に導くデータマネジメント」である。この本はビジネス寄りの本。(ビジネス本の一部に見られるようなポイント列挙型の本で、)75個のルールとして、データマネジメントに関してのポイントが紹介されており、有用度はバラバラの印象。個人的にはデータ基盤全体を俯瞰するのにあたり、データマネジメント施策の概要を説明しているRule18とその具体例を紹介したRule19が役に立った。
<Amazonリンク>
DXを成功に導くデータマネジメント
エンジニアのためのデータ分析基盤入門
4冊目は「エンジニアのためのデータ分析基盤入門」である。この本は技術書となっている。特に第2章はデータ基盤のアーキテクチャの理解、第4章はデータ基盤構築のための具体的な技術が広く紹介されており、技術面での俯瞰に役立つ。 4章の技術に関しては、どうしても書籍の性質上、最新のものでないものも含まれる(そのため、多くの書籍が触れたがらない領域である)が、とっかかりとして役に立つ。例えば、「ワークフローって概念を知ったけど、具体的にどうやって実現するの?」という疑問が産まれた際、「AirFlow」などの名称を知っていると、それが検索の起点の1つになる。
<Amazonリンク>
エンジニアのためのデータ分析基盤入門
著者による書籍詳細動画:https://www.youtube.com/watch?v=xKghrc2G85c
Google Cloudではじめるデータエンジニアリング入門
5冊目は「Google Cloudではじめるデータエンジニアリング入門」である。この本も技術書となっている。データ基盤構築の観点からGCPのサービスが紹介されている。GCPには限られるが、データ基盤構築の各ポイントにおいてどのような技術が利用できるか理解することができる。また、主要な用語や活用事例を紹介しているため、公式ドキュメントを読む前の橋渡し的な利用もできる。
<Amazonリンク>
Google Cloudではじめるデータエンジニアリング入門
DMBOK(Data Management Body Of Knowledge)
6冊目は「DMBOK(Data Management Body Of Knowledge)」である。DMBOKはDAMAインターナショナルという組織がデータマネジメントに関して網羅的に説明している書籍である。個人的には最初から最後まで読むというよりは、自分に必要な情報をざっと集める際に利用できる。また、この本の特徴として、ある事柄に対して、複数の視点で情報を提供している。例えば、第13章でデータ品質の評価軸に対してDMBOKでは「〇〇さんは評価軸A、評価軸Bを提唱しています。一方で✖︎✖︎さんは評価軸Aと評価軸Cを提唱しています。」といった形式で記載されている部分が多いので、その中から情報を取捨選択しながら活用することになる。
<Amazonリンク>
DMBOK(Data Management Body Of Knowledge)
データ基盤を整理する上で重要な2つの図
1つ目はDAMAホイール図である。DAMAホイール図はDAMAがデータ基盤を11の軸で整理した図である。この図はシンプルにデータ基盤に関する視点を網羅的に紹介しているため、(今回紹介している書籍を含め、)データ基盤を多角的に解説する書籍/記事の章立て/見出しで利用されることが多い。
<参考ページ>
一般社団法人 データマネジメント協会 日本支部(DAMA Japan)
https://www.dama-japan.org/Introduction.html#DMBOK
今回紹介している書籍との関連性を説明すると、「データマネジメントが30分でわかる本」ではこのホイール図に合わせて、章立てが行われている。
領域 | DMBOK | 30分でわかる本 |
---|---|---|
データガバナンス | 3章 | 11章 |
データアーキテクチャ | 4章 | 1章 |
データモデリングとデザイン | 5章 | 4章 |
データストレージとオペレーション | 6章 | 2章 |
データセキュリティ | 7章 | 7章 |
データ統合と相互運用性 | 8章 | 3章 |
ドキュメントとコンテンツ管理 | 9章 | 6章 |
参照データとマスターデータ | 10章 | 5章 |
データウェアハウジングとビジネスインテリジェンス | 11章 | 9章 |
メタデータ | 12章 | 10章 |
データ品質 | 13章 | 8章 |
また、「DXを成功に導くデータマネジメント」のRule18の72ページの「標準データマネジメント施策一覧」ではこの11の視点で施策群とチェック表が作成されている。
2つ目はデータアーキテクチャの図である。こちらは著者や話の焦点によってバリエーションがあるが、「データソース > データ基盤 > データ活用」の3層を軸に作成される。
今回紹介している書籍との関連性を説明すると、「実践的データ基盤への処方箋」では「はじめに」のⅩページの図 0-1「データ基盤の全体像」でこの図を使ってデータ基盤にまつわるシステムと人の役割を整理しており、各章の間でもこの図を使い、どの部分に焦点を当てているか分かりやすくなっている。
また、「エンジニアのためのデータ分析基盤入門」では2章の28ページの図2.A「データ基盤におけるデータエンジニアリングアクティビティ」でこの図を使って、データエンジニアリングの領域を整理している。4章で、整理した各領域に対して、具体的にどんな技術が使えるか紹介している。
おわりに
今回は実際に自分が読んだデータ基盤の本を網羅的に紹介した。他の記事で多く触れているGA4のデータはそのまま利用することもできるが、集計効率や別データとの結合を考えると、加工したテーブル・ビューを作成することが望ましい。データの加工に使うSQLに関しては「4日目の記事:SQLの入門(書籍の紹介)」で紹介しているため、合わせて参照のこと。 X(旧:Twitter)もよろしくお願いします。