データ操作レイヤー (乾物 | データ ウェアハウスをレイヤーに分割する必要があるのはなぜですか?)

データ操作レイヤー (乾物 | データ ウェアハウスをレイヤーに分割する必要があるのはなぜですか?)

実用的なヒント |データ ウェアハウスを階層化する必要があるのはなぜですか?

(1)なぜ階層化が必要なのか?

データ プランナーとして、私たちはデータが秩序正しく流れ、データのライフ サイクル全体が設計者とユーザーによって明確に認識されることを望んでいます。直感的に言えば、図のように階層が明確で依存関係が直感的にわかります。

しかし、ほとんどの場合、私たちが完成させるデータ システムは複雑で、混沌とした階層構造を持っています。下の図に示すように、気付かないうちに、混沌としたテーブル依存関係構造や循環依存関係を持つデータ システムを作成してしまう可能性があります。

したがって、データ システムをより整然としたものにするためには、効果的なデータ編成および管理方法のセットが必要であり、これをデータ階層化と呼びます。データの階層化によってすべてのデータの問題を解決できるわけではありませんが、次のような利点が得られます。

1) 明確なデータ構造:各データ レイヤーには範囲と責任があり、テーブルを使用するときに見つけやすく、理解しやすくなります。
2) 重複開発の削減:データの階層化を標準化し、共通の中間層データを開発することで、重複計算を大幅に削減します。
3) 統一されたデータ容量:データの階層化により、統一されたデータエクスポートが提供され、外部出力のデータ容量が統一されます。
4) 複雑な問題を単純化する:複雑なタスクを複数のステップに分割し、各層で特定の問題を解決します。

上記の利点を満たすために、データ モデルは通常、データ操作層 (ODS)、データ ウェアハウス層 (DW)、データ アプリケーション層 (APP) の 3 つの層に分割されます。簡単に言えば、ODS 層には元のアクセス データが保存され、DW 層には設計に重点を置きたいデータ ウェアハウス中間層のデータが保存され、APP は業務に合わせてカスタマイズされたアプリケーション データであることがわかります。これら 3 つのレイヤーの設計については、以下で詳しく説明します。

(2)データモデルの階層化

1) ソースデータレイヤー (ODS)
このデータ層は変更されず、周辺システムのデータ構造とデータを直接使用し、外部には公開されません。これは、データ処理の次のステップに備えてインターフェース データを一時的に保存する層および一時的な保存領域です。

2) データ ウェアハウス層 (DW)
詳細レイヤーとも呼ばれる DW レイヤーのデータは、一貫性があり、正確で、クリーンである必要があります。つまり、ソース システム データがクリーンアップされた (不純物が除去された) 後のデータです。

このレイヤーは 3 つのレイヤーに分けられます。
詳細レイヤー DWD (データ ウェアハウス詳細) : 最も細かい粒度の事実データである詳細データを格納します。このレイヤーは通常、ODS レイヤーと同じデータ粒度を維持し、一定レベルのデータ品質保証を提供します。同時に、データ詳細レイヤーの使いやすさを向上させるために、このレイヤーでは、ディメンションをファクト テーブルに縮退し、ファクト テーブルとディメンション テーブル間の関連性を減らすいくつかのディメンション縮退手法を採用します。

中間層 DWM (Data WareHouse Middle) : データ統計用に作成された中間テーブルデータである中間データを格納します。このデータは通常、複数のディメンションの集約されたデータです。このデータ レイヤーは通常、DWD レイヤーのデータから取得されます。

ビジネス層 DWS (データ ウェアハウス サービス) : 幅広いテーブル データを格納します。このデータ層は、特定のビジネス分野の集約されたデータです。ビジネス レイヤーのデータは通常、このレイヤーから取得されます。なぜワイドテーブルと呼ばれるのでしょうか?これは主に、ビジネス関連のすべてのデータがこのレイヤーに収集され、保存され、ビジネス レイヤーがデータを取得しやすくなるためです。このデータ層は通常、DWD 層と DWM 層のデータから取得されます。

実際の計算では、幅の広い表の統計指標をDWDやODSから直接計算すると、計算量が多すぎる、次元が少なすぎるなどの問題が発生します。したがって、一般的な方法は、まず DWM レイヤーで複数の小さな中間テーブルを計算し、次にそれらを DWS ワイド テーブルに結合します。広いと狭いの境界を定義するのは難しいため、DWM レイヤーを削除して DWS レイヤーのみを残し、すべてのデータを DWS に配置することもできます。

3) データアプリケーション層(DAまたはAPP)
フロントエンド アプリケーションによって直接読み取られるデータ ソース。レポートや特別な分析のニーズに応じて計算によって生成されたデータ。

4) 次元
最後に、主に 2 つのデータ部分を含むディメンション テーブル レイヤーを追加します。
A) 高カーディナリティのディメンション データ: 一般的には、ユーザー データ テーブルや製品データ テーブルなどのデータ テーブル。データの量は数千万から数億に及ぶ場合があります。
B) 低カーディナリティのディメンション データ: 通常は、列挙値の中国語の意味や日付ディメンション テーブルなどの構成テーブルです。データの量は 1 桁の場合もあれば、数千または数万になる場合もあります。

(3)問題の拡大
データ ウェアハウス システム アーキテクチャ

上図のシステムの各部分の実行フローは次のとおりです。
1) 分析のベースとなるソース データを特定します。
2) ETL を通じてソース データをデータ ウェアハウスに収集します。
3) データは、データ ウェアハウスによって提供されるサブジェクト構造に従って保存されます。
4) 各部門のビジネス分析要件に基づいてデータ マート (データ ウェアハウスのサブセット) を作成します。
5) 意思決定分析、レポート作成、その他のアプリケーション システムは、データ ウェアハウスからデータを照会して分析します。
6) ユーザーはアプリケーションシステムを通じて分析結果とレポートを照会します。

(4)プロジェクトとの組み合わせ

電子商取引 Web サイトのデータ システム設計では、ユーザー アクセス ログ データの例を使用します。

ODS レイヤーでは、両端の開発チームが異なることやその他のさまざまな問題により、ユーザーのアクセス ログが複数のテーブルに分割され、ODS レイヤーにレポートされます。

皆様の使いやすさを考慮して、DWD レイヤーでのユーザー アクセス行動の毎日の表を作成しました。ここでは、PC ウェブページ、H5、ミニプログラム、ネイティブ APP のアクセス ログを 1 つのテーブルに集約し、フィールド名を統一して、データの品質を向上させます。このように、誰でも便利に使える詳細な表があります。

DWM レイヤーでは、DWD レイヤーからビジネス上の関心事の中核となるディメンションを選択し、人、製品、設備、ページ領域のディメンションのみを保持するなどの集計操作を実行します。同様に、多くの DWM 中間テーブルに対してもこれを実行します。

次に、DWS レイヤーで、Web サイト全体でのユーザーの行動データをテーブルにまとめます。こちらは当店の広いテーブルです。このテーブルを使用すると、ほとんどの一般的なビジネス ニーズに迅速に対応できます。
最後に、APP アプリケーション層では、DWS 層の 1 つ以上のテーブルからデータを取得し、必要に応じてアプリケーション テーブルに結合できます。

<<:  データ操作機能(操作に必要な基本データの新規追加)

>>:  データオペレーター(デジタルフルスタックオペレーターの試験を受けるには?業界の見通しは?)

推薦する

商品運営実績(当連盟の観光路線商品の運営は2023年に顕著な成果を上げました)

2023年、当リーグの観光ルート商品の運営は目覚ましい成果を上げています今年、当連盟は「食、宿泊、...

ユーザーオペレーションをいかに微調整するか(より深い会員制度の構築がユーザーオペレーションを微調整する鍵となる)

より深い会員制度の構築が洗練されたユーザーオペレーションの鍵現在、ユーザーオペレーションは新たな発展...

高級品のマーケティング戦略(味覚のアップグレード:高級ケータリングのマーケティング術を解き明かす)

味覚のアップグレード:高級レストランのマーケティング術を解明タイトル: 味覚のアップグレード: 高級...

電子商取引の運用には何が含まれますか (AIGC は電子商取引のコンテンツ制作とトラフィック運用をどのように再構築しますか)

AIGC は、e コマース コンテンツの制作とトラフィック運用をどのように改革するのでしょうか?制...

ブランドプランニングの完全サポート(ブランドプランニング事例)

ブランド企画事例ブランドは現代の経済社会において重要な部分を占めています。それは単なる製品ロゴではな...

Shopify製品の価格設定、在庫、配送設定のチュートリアル

使用中ショッピファイプラットフォーム上で独立した対外貿易ウェブサイトを立ち上げる場合、より高い利益を...

ShopifyはShopeeと同じですか? ShopifyとShopeeの越境プラットフォームの違い

ショッピファイエビペーストですか? Shopify は Shopee ではなく、Shopee は S...

メンズセーターブランドランキング(おしゃれなカシミアセーターの準備はできていますか?松江のこれらのファクトリーストアに行って見てみましょう)

おしゃれなカシミアセーターの準備はできていますか?松江のこれらの工場直売店に行って見ることができます...

ユーザーオペレーションをしっかりやる(優れたユーザーオペレーションにはどんな自己啓発が必要か?)

優秀なユーザーオペレーターにはどのような自己研鑽が必要ですか?ユーザー操作は、露出、トラフィック、ラ...

ブランド運用計画には何が含まれていますか(どのようにブランドを構築するか)

ブランドを構築するにはどうすればいいですか?現在、市場にはあらゆるカテゴリーの製品が数多く存在します...

データ資産の管理方法 (データ資産管理とは何ですか? 企業はデータ資産をどのように管理しますか?)

データ資産管理とは何ですか? 企業はデータ資産をどのように管理しますか?ビッグデータの時代となり、多...

WannaCry ランサムウェアから身を守る 2 つの方法

先週末、サイバーセキュリティ業界で最もホットなニュースは、ランサムウェアウイルス「WnnCy」でした...

広告企画とブランド企画(企画業務はハイエンド?新人はブランド企画をどのように学べばいい?)

企画業務はハイエンドですか?新人はブランドプランニングをどのように学ぶのでしょうか?ブランド企画、マ...