データレイヤー設計データ操作プロセスに応じて、データモデルを、次の図に示すように、データ操作層 (ODS)、データ ウェアハウス層 (DW)、データ アプリケーション層 (APP) の 3 つの層に分割します。簡単に言えば、ODS レイヤーにはアクセスされた元のデータが保存され、DW レイヤーにはデータ ウェアハウス内のデータが保存され、APP レイヤーにはビジネスに合わせてカスタマイズされたアプリケーション データが保存されます。 運用データ ソース レイヤーまたはデータ操作レイヤーは、データ ソース内のデータに最も近いレイヤーです。データ ソース内のデータは、ETL (抽出、変換、読み込み) 後にこのレイヤーに読み込まれます。この層のデータのほとんどは、ソース業務システムの分類方法に従って分類されます。 このレイヤーはデータ ソースに最も近いため、このデータ レイヤーに対して過度なデータ クリーニング作業を行うことはお勧めしません。元のデータにそのままアクセスするだけです。データのノイズ除去、重複排除、外れ値の除去については、後続の DWD レイヤーでこれらの操作を実行できます。 データ ウェアハウス レイヤー (データ ウェアハウス) は、データ ウェアハウスを設計するときに設計する必要があるコア レイヤーです。ここでは、ODS レイヤーから取得したデータを使用して、テーマに応じたさまざまなデータ モデルを構築します。 DW 層はさらに、次の図に示すように、DWD (データ ウェアハウス詳細) 層、DWM (データ ウェアハウス中間) 層、DWS (データ ウェアハウス サービス) 層に分かれています。 1) データ詳細レイヤー(DWD) データ ウェアハウスの詳細: このレイヤーは通常、ODS レイヤーと同じデータ粒度を維持し、一定のデータ品質保証を提供します。同時に、データ詳細レイヤーの使いやすさを向上させるために、このレイヤーでは、ディメンションをファクト テーブルに縮退し、ファクト テーブルとディメンション テーブル間の関連付けを減らすいくつかのディメンション縮退方式を採用します。 さらに、このレイヤーでは、データの可用性を向上させるために、同じトピックに関するデータを 1 つのテーブルに収集するデータ集約が行われます。 2) データ中間層 (DWM) データ ウェアハウス中間層 (Data Warehouse Middle) は、DWD 層に基づいてデータに対して軽い集計を実行し、一連の中間テーブルを生成することで、公開指標の再利用性を向上させ、繰り返し処理を削減します。直感的に言えば、共通のコアディメンションを集約し、対応する統計指標を計算することです。 3) データサービス層 (DWS) データ サービス層は、データ マートまたはワイド テーブル (データ ウェアハウス サービス) とも呼ばれます。トラフィック、注文、ユーザーなどのビジネス部門に応じて、より多くのフィールドを持つ幅の広いテーブルが生成され、後続のビジネスクエリ、OLAP 分析、データ配布などを提供します。 一般的に、このレイヤーには比較的少数のデータ テーブルがあり、1 つのテーブルでより多くのビジネス コンテンツをカバーします。このレイヤーのテーブルはフィールド数が多いため、一般的にワイド テーブルと呼ばれます。 実際の計算では、幅の広い表の統計指標を DWD や ODS から直接計算すると、計算量が多すぎたり次元が少なすぎたりする問題が発生します。したがって、一般的な方法は、まず DWM レイヤーで複数の小さな中間テーブルを計算し、次にそれらを DWS ワイド テーブルに結合します。広いと狭いの境界を定義するのは難しいため、DWM レイヤーを削除して DWS レイヤーのみを残し、すべてのデータを DWS に配置することもできます。 データ アプリケーション層 (アプリケーション)、またはADS (アプリケーション データ サービス)は、主にデータ製品とデータ分析を提供するために使用されます。このレイヤーのデータは通常、Redis や PostgreSql などの共同オンライン システムで使用されるシステムに保存されます。データ分析やデータマイニングのために Hive や Druid に保存される場合もあります。たとえば、レポート データは Hive に保存できます。 ディメンション レイヤー (ディメンション)。一貫性のあるデータ分析ディメンション テーブルを確立すると、データ計算能力とアルゴリズムの不一致のリスクを軽減できます。ディメンションをモデリング ドライバーとして使用し、各ディメンションのビジネス上の意味に基づいて、ディメンションとディメンションの主キーを定義し、ディメンション属性を追加し、ディメンションを関連付けて計算ロジックとスノーフレーク モデルを定義することで、属性定義プロセスが完了し、一貫性のあるデータ分析ディメンション テーブルが確立されます。同時に、ディメンションのマスターとサブディメンションの関係を定義することもできます。サブディメンションの属性はマスター ディメンションにマージされて使用されるため、ディメンションの一貫性と利便性がさらに確保されます。 ディメンション レイヤーは 2 つの部分で構成されます。 1) 高カーディナリティのディメンション データ: 一般的には、ユーザー データ テーブルや製品データ テーブルなどのデータ テーブルで、データ量は数千万から数億に及びます。 2) 低カーディナリティのディメンション データ: 一般的には、列挙値の中国語の意味などの構成テーブルや、データ量が数千から数万に及ぶ日付ディメンション テーブルなどです。 |
<<: データ操作機能 (企業のデジタル変革に必要なデータはどこにありますか? 企業のデータ操作の用途は何ですか?)
電子商取引のカスタマーサービス/スーパーバイザー/スペシャリスト/店長/アーティストなどの業績評価...
CloudWalk Technology:ブランドと市場のプロモーションを強化するために宣伝活動を...
口コミマーケティングキラー!成功事例を公開!アメリカにピザレストランがあります。公式ウェブサイトは...
2023年の衣料品業界のキーワード:ファストファッションは速くない、高価格ゲーム、高コストパフォー...
今年4月、我が国は西部地域の発展促進に関するシンポジウムにおいて、中国の近代化の過程で西部地域の発展...
出典: ファイナンス無記今年の6月18日、電子商取引プラットフォーム間の競争はこれまで以上に激しくな...
Shopyy の独立したウェブサイトはどうですか? Shopyyは、使いやすく、無料で利用できる国内...
中雷ブランドマーケティング計画 & 唐順興食品グループ & 羅浮ワンダーランド発祥...
ワイルドカード SSL 証明書で保護できるドメインの数はいくつですか?ワイルドカード SSL 証明書...
オートキャンプ場はどうやって収益を得るのですか?開発の方向性はどこにあるのでしょうか?自動車の普及と...
優れたSTEAMケース本稿では、STEM学校ベースのカリキュラム「環境に優しいクリーナーの設計」の構...
口コミマーケティングをより効果的に行う方法: ブランドの影響力を高めるための重要な戦略口コミマーケテ...
Cエンドオペレーションが活況を呈していますが、私たちは何をすべきでしょうか?テキスト |ワインレビ...
キャンパスアクティビティマーケティング・プロモーション企画のポイントを総合的に共有キャンパス市場には...
TikTok越境EC:TK情報フロー広告をどのように展開すれば、露出コンバージョン率は100%に達...