データ操作層(データ層設計)

データ操作層(データ層設計)

データレイヤー設計

データ操作プロセスに応じて、データモデルを、次の図に示すように、データ操作層 (ODS)、データ ウェアハウス層 (DW)、データ アプリケーション層 (APP) の 3 つの層に分割します。簡単に言えば、ODS レイヤーにはアクセスされた元のデータが保存され、DW レイヤーにはデータ ウェアハウス内のデータが保存され、APP レイヤーにはビジネスに合わせてカスタマイズされたアプリケーション データが保存されます。


運用データ ソース レイヤーまたはデータ操作レイヤーは、データ ソース内のデータに最も近いレイヤーです。データ ソース内のデータは、ETL (抽出、変換、読み込み) 後にこのレイヤーに読み込まれます。この層のデータのほとんどは、ソース業務システムの分類方法に従って分類されます。


このレイヤーはデータ ソースに最も近いため、このデータ レイヤーに対して過度なデータ クリーニング作業を行うことはお勧めしません。元のデータにそのままアクセスするだけです。データのノイズ除去、重複排除、外れ値の除去については、後続の DWD レイヤーでこれらの操作を実行できます。


データ ウェアハウス レイヤー (データ ウェアハウス) は、データ ウェアハウスを設計するときに設計する必要があるコア レイヤーです。ここでは、ODS レイヤーから取得したデータを使用して、テーマに応じたさまざまなデータ モデルを構築します。 DW 層はさらに、次の図に示すように、DWD (データ ウェアハウス詳細) 層、DWM (データ ウェアハウス中間) 層、DWS (データ ウェアハウス サービス) 層に分かれています。


1) データ詳細レイヤー(DWD)

データ ウェアハウスの詳細: このレイヤーは通常、ODS レイヤーと同じデータ粒度を維持し、一定のデータ品質保証を提供します。同時に、データ詳細レイヤーの使いやすさを向上させるために、このレイヤーでは、ディメンションをファクト テーブルに縮退し、ファクト テーブルとディメンション テーブル間の関連付けを減らすいくつかのディメンション縮退方式を採用します。

さらに、このレイヤーでは、データの可用性を向上させるために、同じトピックに関するデータを 1 つのテーブルに収集するデータ集約が行われます。


2) データ中間層 (DWM)

データ ウェアハウス中間層 (Data Warehouse Middle) は、DWD 層に基づいてデータに対して軽い集計を実行し、一連の中間テーブルを生成することで、公開指標の再利用性を向上させ、繰り返し処理を削減します。直感的に言えば、共通のコアディメンションを集約し、対応する統計指標を計算することです。


3) データサービス層 (DWS)

データ サービス層は、データ マートまたはワイド テーブル (データ ウェアハウス サービス) とも呼ばれます。トラフィック、注文、ユーザーなどのビジネス部門に応じて、より多くのフィールドを持つ幅の広いテーブルが生成され、後続のビジネスクエリ、OLAP 分析、データ配布などを提供します。

一般的に、このレイヤーには比較的少数のデータ テーブルがあり、1 つのテーブルでより多くのビジネス コンテンツをカバーします。このレイヤーのテーブルはフィールド数が多いため、一般的にワイド テーブルと呼ばれます。

実際の計算では、幅の広い表の統計指標を DWD や ODS から直接計算すると、計算量が多すぎたり次元が少なすぎたりする問題が発生します。したがって、一般的な方法は、まず DWM レイヤーで複数の小さな中間テーブルを計算し、次にそれらを DWS ワイド テーブルに結合します。広いと狭いの境界を定義するのは難しいため、DWM レイヤーを削除して DWS レイヤーのみを残し、すべてのデータを DWS に配置することもできます。


データ アプリケーション層 (アプリケーション)、またはADS (アプリケーション データ サービス)は、主にデータ製品とデータ分析を提供するために使用されます。このレイヤーのデータは通常、Redis や PostgreSql などの共同オンライン システムで使用されるシステムに保存されます。データ分析やデータマイニングのために Hive や Druid に保存される場合もあります。たとえば、レポート データは Hive に保存できます。


ディメンション レイヤー (ディメンション)。一貫性のあるデータ分析ディメンション テーブルを確立すると、データ計算能力とアルゴリズムの不一致のリスクを軽減できます。ディメンションをモデリング ドライバーとして使用し、各ディメンションのビジネス上の意味に基づいて、ディメンションとディメンションの主キーを定義し、ディメンション属性を追加し、ディメンションを関連付けて計算ロジックとスノーフレーク モデルを定義することで、属性定義プロセスが完了し、一貫性のあるデータ分析ディメンション テーブルが確立されます。同時に、ディメンションのマスターとサブディメンションの関係を定義することもできます。サブディメンションの属性はマスター ディメンションにマージされて使用されるため、ディメンションの一貫性と利便性がさらに確保されます。


ディメンション レイヤーは 2 つの部分で構成されます。

1) 高カーディナリティのディメンション データ: 一般的には、ユーザー データ テーブルや製品データ テーブルなどのデータ テーブルで、データ量は数千万から数億に及びます。

2) 低カーディナリティのディメンション データ: 一般的には、列挙値の中国語の意味などの構成テーブルや、データ量が数千から数万に及ぶ日付ディメンション テーブルなどです。

<<:  データ操作機能 (企業のデジタル変革に必要なデータはどこにありますか? 企業のデータ操作の用途は何ですか?)

>>:  データオペレーター(新職業)

推薦する

ローカルブランドのマーケティング戦略(海外進出でも「ローカル」を恐れない:DTCブランドのローカライズ運用の実践戦略7選!)

海外進出でも「現地化」を恐れない:DTCブランドの現地化運営のための実践的戦略7選! 2023年には...

中国乗用車協会販売ランキング一覧(公式発表!新エネルギー車メーカー5月の販売台数発表:奇瑞6位、文傑9位、トヨタは下から2位)

正式発表!新エネルギー車メーカーの5月の販売台数発表:奇瑞6位、文傑9位、トヨタは下から2位報道に...

BigCartel ウェブサイト構築チュートリアル: オンラインストアの作成

BigCtel は、中小企業や個人のクリエイターが独自のオンライン ストアを構築するのに適した、使い...

製品とオペレーションのどちらのポジションが優れているでしょうか? (23年後もうまくやりたいなら運用に切り替えてみよう!)

23歳で成功したいならオペレーションに転向してみて! 2024年前半の経済・金融環境は全体的にすぐ...

生産・運用データ分析(製造業必見のビジネス分析事例)

製造業必読のビジネス分析事例WinPlan Business Brainは、杭州 Shulide T...

化粧品ブランドの売上データ(CASSがスキンケア消費動向レポートを発表:科学的なスキンケア需要は多様化)

社会科学アカデミーはスキンケア製品の消費動向に関する報告書を発表:科学的なスキンケアのニーズはますま...

コマンドラインを使用してAlma Linuxサーバーにユーザーを作成する方法

前回の記事では、「AlmLinux サーバーのグラフィカル ユーザー インターフェイスを使用して新し...

超「隕石ダイヤモンド」がやってくる、中国の力は世界で「唯一無二」

2月11日夜、吉林大学の公式Weiboアカウントによると、中国の科学研究チームは、高温高圧下でグラフ...

コンテンツ運用データ(Toutiao運用の秘密:実用的な情報が満載、データ分析スキルも公開)

Toutiao 運営の秘密: 実用的な情報が満載、データ分析スキルが明らかにはじめに:見出しの操作...

オンラインストアコンテンツ運用(オンラインストアの開設方法は?必要なものは?初心者向けオンラインストア開設の提案)

オンラインストアを開設するには?あなたは何が必要ですか?新店舗開店のヒントオンラインストアの開設は、...

Li Ningブランドのマーケティング戦略(Li Ningデジタルストア、オムニチャネル運営の問題をどう解決するか?)

Li Ning のデジタルストアは、オムニチャネル運営の問題をどのように解決するのでしょうか?制作...

ストアードバリューマーケティングプラン(100元のストアードバリュープランは、顧客を1年間来店させ続けるので、ぜひ貯めてください)

100 元保管プランにより、お客様は 1 年間当店に通い続けることができます。保存してください。ク...

プロモーション活動(ビジネスマン必読:プロモーションの重要性、どんなプロモーション方法をご存知ですか?)

ビジネスマン必読:プロモーションの重要性。どのようなプロモーション方法をご存知ですか?一般的に、消...

ブランド ブランド プランニング (ブランド カルチャーとは何か? あなたの認識を覆す)

ブランド文化とは何ですか?あなたの認識を覆す(原文:Shen Kun、全文3,500語、読むのに15...