ついにデータウェアハウスをわかりやすく説明してくれる人が出てきた著者: 彭峰、宋文鑫、孫浩峰 出典: 華張テクノロジー データ ウェアハウスは、管理上の意思決定プロセスをサポートするために使用される、主題指向で統合された、時間によって変化するが比較的安定したデータのコレクションです。データ ウェアハウスの主な機能は次のとおりです。
データ ウェアハウスの開発には 40 年近くの歴史がありますが、ビッグ データ プラットフォームが登場する前は、主にリレーショナル データベース (ここでは従来のデータ ウェアハウスと呼びます) でデータを処理していました。ビッグデータの出現後、データウェアハウスが担うタスクは変わっていませんが、その構築方法、構築内容、技術アーキテクチャは大きく変化しました。この記事ではこれについて簡単に紹介します。 通常、ビジネス運営をサポートするために現在のデータを保存する ODS とは異なり、データ ウェアハウスは履歴データと要約されたビジネス データを記録します。多くのシステムでは、ODS に対応する永続データ ストレージはソース データ レイヤーとも呼ばれ、その意味は同じです。つまり、ビジネス システムから収集された変更されていない OLTP 操作データ セットです。 ODS は、OLTP データのインポート領域であるだけでなく、いくつかの分析ニーズにも対応できます。表 10-2 に、両者の簡単な比較を示します。 表10-2 ODSとデータウェアハウスの比較 従来のデータ ウェアハウスを紹介し、モデリングを詳細に説明した書籍はすでに多数あるため、ここでは簡単に紹介するだけにします。 データ ウェアハウス モデルは、概念モデル、論理モデル、物理モデルの 3 つのレイヤーに分かれています。
一般的に、データ ウェアハウスにおけるモデリング作業は主に論理モデル層で行われます。最も一般的な 2 つの方法は、エンティティ リレーションシップ(ER) モデリングとディメンションモデリングです。 エンティティ リレーションシップ モデリングでは、エンティティとリレーションシップの 3NF モデルを使用して、エンタープライズ ビジネス アーキテクチャを記述します。ビジネス システム (OLTP) の 3NF モデルは一般に特定のビジネス プロセスを対象としているのに対し、データ ウェアハウス (OLAP) の 3NF モデルは一般に企業全体のエンティティと関係の抽象化を対象としており、データの集約、統合、一貫性の管理を重視していることは注目に値します。 「データ ウェアハウスの父」として知られる Bill Inmon は、エンティティ リレーションシップ モデリングを提唱しています。たとえば、Teradata が金融業界向けに設計した FS-LDM (金融サービス論理データ モデル) は、典型的なエンティティ リレーションシップ モデルです (図 10-2 を参照)。一般的な金融活動を 10 のテーマとそれらの関係性に抽象化してまとめます。 10 のテーマは、当事者、製品、契約、イベント、資産、財務、機関、地域、マーケティング、チャネルです。 図10-2 Teradata FS-LDM エンティティ リレーションシップ モデリングの利点は、3NF に準拠し、データの冗長性が少なく、データの統合と管理が容易なことです。ただし、このアプローチは、構築サイクルが長く、設計者が設計および実装する前に企業のグローバルビジネスを深く理解する必要があり、ビジネスの急速な変化にうまく対応できないため、ビッグデータに基づくデータウェアハウスモデリングには推奨されません。 ディメンション モデリングは、データ ウェアハウスとビジネス インテリジェンスの分野の権威である Ralph Kimball によって提案されました。その中心的な考え方は、ビジネス分析と意思決定のニーズに基づいてモデルを構築することです。 具体的には、分析対象となる業務プロセスの基本情報(取引ID、顧客ID、店舗ID、商品ID、取引時間、取引金額など)をファクトテーブルに記録し、この業務プロセスに関連する一般情報(顧客情報、店舗情報、商品情報など)をディメンションテーブルに記録します。 エンティティ・リレーションシップ・モデリングとは異なり、ディメンション・モデリングでは、一般的にスター・モデルまたはスノーフレーク・モデルが使用されます。これらのモデルには、一定のデータ冗長性(たとえば、同じトランザクション内の複数の商品レコードで、トランザクション ID、顧客 ID、店舗 ID などが重複する場合があります)があり、3NF に準拠していません。ただし、エンティティ リレーションシップ モデリングに比べて次の利点があるため、データ センターのデータ ウェアハウスを構築する場合には、このモデリング方法をお勧めします。
理論的には、Hadoop に基づいてデータ ウェアハウスを構築するための複数の階層化方法があります。一部のシステムには専用のデータ レイクがありませんが、ODS をデータ ウェアハウスの一部として分類します。一部のシステムでは、データ マートをデータ ウェアハウスの一部として分類することもあります。一部のシステムでは、次元データを別のレイヤーとしてカウントします。階層化の方法は異なりますが、一般的なデータ ウェアハウスの構築プロセスと考え方は原則的に似ています。 この記事では、データ ウェアハウスの構築を、データ レイク、データ ウェアハウス、データ マートの 3 つのレイヤーに簡単に分割します。その中で、データ ウェアハウス層はさらに詳細データ層(DWD、基本データ層とも呼ばれる) とデータ サマリー層(DWS、一般データ層とも呼ばれる) に分けられます。さらに、図 10-3 に示すように、統合されたディメンション データ テーブルとメタデータ/マスター データ管理システムを使用します。 図10-3 データウェアハウス階層 以下では、データ ウェアハウスの各レベルの主な機能、データ モデル、主なデータ処理方法を紹介します。 多くのデータ ウェアハウス システムでは、実際の状況に応じてこれらのレベルの機能を編成できることは注目に値します。たとえば、専用のオリジナル詳細データ レイヤーを使用すると余分なスペースが大量に必要になるため、実際のプロジェクトでは、専用のオリジナル詳細データ レイヤーを設定する代わりに、データ レイク内の ODS をわずかに拡張することがよくあります。 ODS をデータ ウェアハウスの範囲に単純に計画するシステムもあります。 また、データ マートは、ビジネスに特化しており直接使用できる特性を示すために、通常はデータ ウェアハウスとは区別されますが (そのため、一般的にはアプリケーション データ マートと呼ばれます)、データ ウェアハウスの構築には、一般的にデータ マートが含まれます。実際のところ、名前は重要ではありません。重要なのは、各レイヤーの作業と設計原則を理解することです。 1. 生データ ビジネス データの元の詳細な履歴記録は、通常、ビジネス ドメインに従って整理されます。場合によっては、このレイヤーは ODS によって直接実行されます。このレイヤーを個別に設定する場合、そのデータ モデルは基本的に ODS と一致し、さらに入力時間、更新時間、処理バッチなど、データ処理に必要ないくつかの統合された拡張フィールドが追加されます。 場合によっては、テーブル名の統一、テーブル名の重複排除、いくつかの単純なディメンション テーブルのマージやコード変換など、名前とコードがこのレイヤーで標準化されることがあります。データは、増分的に整理したり、年、月、日ごとに分割したり、または完全に整理して、毎日最新の完全なスナップショットを保存したりできます。 2. 詳細データ 元の詳細データは、ID 変換、フィールドのマージ、ダーティ データ処理、ディメンション データの標準化、感度低下処理、データ品質の検出など、ビジネス ルールに従ってさまざまな方法でクリーンアップされます。 このレベルのデータ モデルでは、ユーザー、製品、トランザクションなどのマスター データとその標準ディメンションなどのマスター データとディメンション データ モデルを決定し、ETL を通じて元のデータに対して予備処理を実行し、結果データを対応するクリーニング詳細テーブルに格納する必要があります。 一般的に、このレイヤーは、一部の非構造化データ (ログ、埋め込みデータ) を解析および管理し、サーバー ログをユーザー アクセスの詳細リストに解析するなど、それらを構造化された詳細リストに変換する役割も担います。データ ガバナンス作業のほとんどはこのレイヤーで行われ、このレイヤーのワークロードも最大になります。 このデータのレイヤーのIDとディメンションデータ値は標準化され検証されており、データ分析の主な基礎として使用されます。クリーニングと処理のロジックは比較的複雑であり、処理中にエラーが発生した場合は再計算が必要になることがよくあります。したがって、このデータ層を効果的に管理するには、系統、バージョン、および変更管理が重要です。 3. 集計データ サマリー データは、クレンジングされた詳細データに基づいて生成された、きめ細かいサマリー集計結果です。このレベルのデータ モデルは、通常、ビジネス ニーズに基づいてスター モデルまたはスノーフレーク モデルに従って構築された最も細かい粒度の要約であるため、データ ウェアハウスの分析機能は基本的に決定されます。 たとえば、チャネル、ユーザーの性別、年齢、収入、製品カテゴリ、および参照元ごとに製品の売上を照会する場合、このクエリを処理するための専用の要約ファクトテーブルが必要です。名前は次のようになります。 このテーブル名には、関係する各ディメンションの値のあらゆる組み合わせが含まれており、日次または時間別の売上に分類されています。各フィールドのディメンション値は、対応するディメンション テーブルの値に対応する標準 ID です。 データ ウェアハウスのモデリングは主にこの段階で行われ、データ ウェアハウス分析の制限はここで確立されたデータ モデルの機能です。 たとえば、上記のモデルでは、細分化されたデータの集計を使用して、sales_by_channel(先月の Taobao での売上)+ sales_by_referer(Baidu 広告によってもたらされた昨日の売上)などの集計クエリ(ロールアップ)に回答できるほか、「Baidu 広告を通じて 35 歳以上の高所得男性が Taobao で購入した 3C 製品の昨日の売上」などのドリルダウン クエリ(ドリルダウン)にも回答できます。 ただし、地域などの別の次元を追加すると、このモデルは機能しなくなります。この時点でモデルを修正して再計算する必要があります。 この状況では、1 つのアイデアとして、すべてのディメンションを事前に追加できるかどうかが挙げられます。このアプローチの主な問題は、次元の組み合わせの数が増えるにつれて、データ エントリの数が急速に増加することです。 ディメンションが 50 個あり、各ディメンションに 100 個の値がある場合、販売レコードによって 5,000 個の要約レコードが生成され、実際の作業シナリオではさらに多くのレコードが生成される可能性があります。このようなソリューションは、膨大な量のデータと長時間かかる ETL タスクに加えて、集計クエリを実行する場合にも非効率的です。 このような高次元の結合データは一般にデータ キューブと呼ばれ、その生成と計算の問題に対する従来の解決策が 2 つあります。
4. データマート このレイヤーには通常、業務ドメインに応じて事業部門が設定した特定のトピックの概要表が含まれており、業務運営の状況を反映しています。データ マート内のデータは主にサマリー データ ファクト テーブルから取得されますが、近年ではデータ分析や機械学習アプリケーションを通じてデータ レイクから直接データ マート レポートを生成する人も多くなっています。結局のところ、要約詳細テーブルは以前の設計によって制限されます。 サマリー データ ファクト テーブルとは異なり、データ マートのデータ テーブルには、ビジネス属性を直接反映するフィールドが含まれています。たとえば、データ マートの顧客注文統計テーブルには、地域名と製品名が含まれます (ただし、必ずしも地域コードと製品コードが含まれるわけではありません)。 これは、データ マートのデータ テーブルが、さらなる分析のためにビジュアル BI ツールに直接入力されることが多く、地域や製品などのディメンション フィールドでは、クエリ中の結合操作を節約するために、ビジネス属性を直感的に表す名前が直接使用されるためです。 たとえば、前述の売上要約テーブルは次のようなテーブルを生成するかもしれません。 データ マート内のデータは、通常、データ アプリケーションのデータ ソースとなります。たとえば、前述の視覚化 BI ツールでは、データ マート内のデータをグラフ形式で表示したり、データ キューブ (多次元データ) の形式でデータ マート内のデータに対して多次元分析 (ロールアップ、ドリルダウン、スライス、ダイス操作など) を実行したりできます。 データ ウェアハウスのデータ ガバナンスは、データ資産の管理レベルと利用効率を向上させることを目的として、実際のビジネス上の問題を解決することを目的としています。これはメタデータによって駆動され、データ標準管理、データ品質管理、データ セキュリティ管理のさまざまな段階を接続して、データのライフ サイクル全体をカバーする統合された完全なデータ ガバナンス システムを形成します。データ ウェアハウスにおけるデータ ガバナンスは、主に次の問題を対象としています。
上記の問題を解決するために、データ ガバナンスでは一般的に次の機能コンポーネントを提供する必要があります。
データガバナンスのプロセスでは、一般的に、データの収集、データの標準、データの整理と変換、データの使用などの問題を解決する必要があります。ここでは主にデータ標準とデータ品質に関する関連作業を紹介します。 データ標準とは、内部および外部でのデータの使用と交換の一貫性と正確性を保証する規範的な制約を指します。データ標準には通常、標準分類、標準情報項目 (標準コンテンツ)、および関連する公開コード (国コードや郵便番号など) の 3 つの要素が含まれます。 データ標準は、一般的に、基本データ標準と指標データ標準に分けられます。
データ標準管理とは、データ標準を開発および実装するための一連の活動を指します。主な活動は次のとおりです。
データ標準管理の目標は、統一されたデータ標準を策定して公開し、制度的制約、システム制御などの手段を組み合わせることで、企業のビッグデータプラットフォームのデータの完全性、有効性、一貫性、標準化、および開放性を確保し、データ資産管理活動の参照基盤を提供することです。 多くの業界規制機関が業界データ標準を編成し、公開しています。例えば、中国銀行保険監督管理委員会は2018年5月に「銀行金融機関のデータガバナンスガイドライン」を発行しました。ビッグデータプラットフォームやデータミドルプラットフォームを構築する場合、ほとんどの銀行はこのデータ標準の内容を理解し、データミドルプラットフォームの構築に組み込む必要があります。 では、データ標準をデータ ミドル プラットフォームの構築にどのように統合すればよいのでしょうか? 一般的には、データ標準で記述されたデータが従わなければならないルール、例えばデータ値の範囲、データ項目間の関係性や制限などをコードで表現し、システムは管理が必要なデータセットに対してこれらのチェックコード(直接パッチコードもあります)を継続的に実行し、問題があればエラーを報告します。これにより、データ システム内のデータが仕様に準拠していることが保証されます。 多くの場合、これらの標準を満たすには、コードを直接記述する必要はなく、専用のデータ ガバナンス ツールの DSL を使用してデータ品質ルールを構成する必要があります。 データ標準の作成は業界と密接に統合されており、通常、これらのデータ品質タスクを実装するための専用のデータ ガバナンス ツールがあるため、ここでは詳しく説明しません。 04 データクレンジング データ ガバナンスにおける最も重要なステップの 1 つは、データのクリーニングです。データ クリーニングには 2 つの目的があります。1 つはデータ品質の問題を解決すること、もう 1 つはデータをマイニングに適したものにすることです。データ クリーニングの結果は、さまざまなダーティ データを適宜処理し、データ統計、データ マイニングなどに使用するための標準的でクリーンな連続データを取得することです。データ品質の問題には、一般に次の状況が含まれます。
データ品質の問題に対処するには、一般的に次の方法があります。
一般的に、データをデータマイニングに適したものにする方法はいくつかあります。
この記事は「クラウド ネイティブ データ ミドル プラットフォーム: アーキテクチャ、方法論、および実践」から抜粋したもので、発行元によって承認されています。 さらに読む: 「クラウド ネイティブ データ センター: アーキテクチャ、方法論、実践」 推薦: Twitter のビッグデータ プラットフォームの元チーフエンジニアが執筆したこの本は、シリコンバレーと国内の経験を統合し、クラウドネイティブ データ ミドルウェア プラットフォームのアーキテクチャ、選択、方法論、実装パスを包括的に説明しています。国内外の専門家が共同で推奨しています。 |
<<: 運用データの翻訳 (DAU とは何ですか? 洗練された運用データ分析でよく使用される英語の略語については、この記事をお読みください)
>>: 企業にとっての業務データ分析の重要性(知恵の光:取引におけるデータ分析の重要性と応用)
プライベートドメイントラフィック製品システムの構築から洗練された運用ガイドまで今の時代、インターネッ...
6 つの定番会員カード マーケティング モデルで、お店を待っている顧客でいっぱいにしましょう。顧客...
新鋭社:東南アジアのユニコーン企業のブランドプロモーション戦略東南アジアは、総人口が6億3000万人...
美容店のマーケティングスキル、これらの6つのポイントであなたの店をさらに発展させましょう近年、美容...
エンタープライズデータ資産管理ソリューション現在、企業はデータの価値にますます注目しています。 「デ...
現在、ほとんどの Web サイトでは有料の SSL 証明書が使用されています。信頼できる SSL 証...
当社は海外の顧客との通信に海外の安全なメールボックスをよく使用します。優れた安全なメールボックスは、...
Huiliの「4in1」イノベーション推進は積極的にブランド競争力を構築します2024年の「政府活...
フォーチュン500企業のデジタルオペレーション管理の実践著者:yuanziok企業の情報管理は長く困...
ブランド露出のための効果的な戦略ほとんどの越境企業が以前から使用しているマーケティング チャネルは、...
海外でのビジネスを展開する場合、お客様とのコミュニケーションには海外のメールアドレスを使用することが...
ChatGPT: データ埋め込みの認識、ソリューション、コード実装を 1 つの記事で理解する出典:...
「紹興へ観光客を連れてくる」と賞品があります!韶関市は観光振興とマーケティングの優遇措置を導入して...
ブランド戦略を作成するための4つのステップ前回の記事「ブランド戦略の進化」の最後で、ブランドポジショ...
©️Shen Xiang原作者|Lv Yue現在のビジネス環境において、広告主は前例のない課題に直面...