データレイヤー設計データ操作プロセスに応じて、データモデルを、次の図に示すように、データ操作層 (ODS)、データ ウェアハウス層 (DW)、データ アプリケーション層 (APP) の 3 つの層に分割します。簡単に言えば、ODS レイヤーにはアクセスされた元のデータが保存され、DW レイヤーにはデータ ウェアハウス内のデータが保存され、APP レイヤーにはビジネスに合わせてカスタマイズされたアプリケーション データが保存されます。 運用データ ソース レイヤーまたはデータ操作レイヤーは、データ ソース内のデータに最も近いレイヤーです。データ ソース内のデータは、ETL (抽出、変換、読み込み) 後にこのレイヤーに読み込まれます。この層のデータのほとんどは、ソース業務システムの分類方法に従って分類されます。 このレイヤーはデータ ソースに最も近いため、このデータ レイヤーに対して過度なデータ クリーニング作業を行うことはお勧めしません。元のデータにそのままアクセスするだけです。データのノイズ除去、重複排除、外れ値の除去については、後続の DWD レイヤーでこれらの操作を実行できます。 データ ウェアハウス レイヤー (データ ウェアハウス) は、データ ウェアハウスを設計するときに設計する必要があるコア レイヤーです。ここでは、ODS レイヤーから取得したデータを使用して、テーマに応じたさまざまなデータ モデルを構築します。 DW 層はさらに、次の図に示すように、DWD (データ ウェアハウス詳細) 層、DWM (データ ウェアハウス中間) 層、DWS (データ ウェアハウス サービス) 層に分かれています。 1) データ詳細レイヤー(DWD) データ ウェアハウスの詳細: このレイヤーは通常、ODS レイヤーと同じデータ粒度を維持し、一定のデータ品質保証を提供します。同時に、データ詳細レイヤーの使いやすさを向上させるために、このレイヤーでは、ディメンションをファクト テーブルに縮退し、ファクト テーブルとディメンション テーブル間の関連付けを減らすいくつかのディメンション縮退方式を採用します。 さらに、このレイヤーでは、データの可用性を向上させるために、同じトピックに関するデータを 1 つのテーブルに収集するデータ集約が行われます。 2) データ中間層 (DWM) データ ウェアハウス中間層 (Data Warehouse Middle) は、DWD 層に基づいてデータに対して軽い集計を実行し、一連の中間テーブルを生成することで、公開指標の再利用性を向上させ、繰り返し処理を削減します。直感的に言えば、共通のコアディメンションを集約し、対応する統計指標を計算することです。 3) データサービス層 (DWS) データ サービス層は、データ マートまたはワイド テーブル (データ ウェアハウス サービス) とも呼ばれます。トラフィック、注文、ユーザーなどのビジネス部門に応じて、より多くのフィールドを持つ幅の広いテーブルが生成され、後続のビジネスクエリ、OLAP 分析、データ配布などを提供します。 一般的に、このレイヤーには比較的少数のデータ テーブルがあり、1 つのテーブルでより多くのビジネス コンテンツをカバーします。このレイヤーのテーブルはフィールド数が多いため、一般的にワイド テーブルと呼ばれます。 実際の計算では、幅の広い表の統計指標を DWD や ODS から直接計算すると、計算量が多すぎたり次元が少なすぎたりする問題が発生します。したがって、一般的な方法は、まず DWM レイヤーで複数の小さな中間テーブルを計算し、次にそれらを DWS ワイド テーブルに結合します。広いと狭いの境界を定義するのは難しいため、DWM レイヤーを削除して DWS レイヤーのみを残し、すべてのデータを DWS に配置することもできます。 データ アプリケーション層 (アプリケーション)、またはADS (アプリケーション データ サービス)は、主にデータ製品とデータ分析を提供するために使用されます。このレイヤーのデータは通常、Redis や PostgreSql などの共同オンライン システムで使用されるシステムに保存されます。データ分析やデータマイニングのために Hive や Druid に保存される場合もあります。たとえば、レポート データは Hive に保存できます。 ディメンション レイヤー (ディメンション)。一貫性のあるデータ分析ディメンション テーブルを確立すると、データ計算能力とアルゴリズムの不一致のリスクを軽減できます。ディメンションをモデリング ドライバーとして使用し、各ディメンションのビジネス上の意味に基づいて、ディメンションとディメンションの主キーを定義し、ディメンション属性を追加し、ディメンションを関連付けて計算ロジックとスノーフレーク モデルを定義することで、属性定義プロセスが完了し、一貫性のあるデータ分析ディメンション テーブルが確立されます。同時に、ディメンションのマスターとサブディメンションの関係を定義することもできます。サブディメンションの属性はマスター ディメンションにマージされて使用されるため、ディメンションの一貫性と利便性がさらに確保されます。 ディメンション レイヤーは 2 つの部分で構成されます。 1) 高カーディナリティのディメンション データ: 一般的には、ユーザー データ テーブルや製品データ テーブルなどのデータ テーブルで、データ量は数千万から数億に及びます。 2) 低カーディナリティのディメンション データ: 一般的には、列挙値の中国語の意味などの構成テーブルや、データ量が数千から数万に及ぶ日付ディメンション テーブルなどです。 |
<<: データ操作機能 (企業のデジタル変革に必要なデータはどこにありますか? 企業のデータ操作の用途は何ですか?)
海外進出でも「現地化」を恐れない:DTCブランドの現地化運営のための実践的戦略7選! 2023年には...
映画マーケティングの中間レビュー:Douyin は大ヒット映画で混雑し、トラフィック量は分散してい...
正式発表!新エネルギー車メーカーの5月の販売台数発表:奇瑞6位、文傑9位、トヨタは下から2位報道に...
BigCtel は、中小企業や個人のクリエイターが独自のオンライン ストアを構築するのに適した、使い...
23歳で成功したいならオペレーションに転向してみて! 2024年前半の経済・金融環境は全体的にすぐ...
製造業必読のビジネス分析事例WinPlan Business Brainは、杭州 Shulide T...
社会科学アカデミーはスキンケア製品の消費動向に関する報告書を発表:科学的なスキンケアのニーズはますま...
前回の記事では、「AlmLinux サーバーのグラフィカル ユーザー インターフェイスを使用して新し...
2月11日夜、吉林大学の公式Weiboアカウントによると、中国の科学研究チームは、高温高圧下でグラフ...
Toutiao 運営の秘密: 実用的な情報が満載、データ分析スキルが明らかにはじめに:見出しの操作...
オンラインストアを開設するには?あなたは何が必要ですか?新店舗開店のヒントオンラインストアの開設は、...
Li Ning のデジタルストアは、オムニチャネル運営の問題をどのように解決するのでしょうか?制作...
100 元保管プランにより、お客様は 1 年間当店に通い続けることができます。保存してください。ク...
ビジネスマン必読:プロモーションの重要性。どのようなプロモーション方法をご存知ですか?一般的に、消...
ブランド文化とは何ですか?あなたの認識を覆す(原文:Shen Kun、全文3,500語、読むのに15...