業務データの可視化(データウェアハウス構築と指標システムに基づくデータ可視化)

業務データの可視化(データウェアハウス構築と指標システムに基づくデータ可視化)

指標システムに基づくデータウェアハウス構築とデータ可視化

序文

データ作業における私の経験を共有する記事をまとめていきます。業務内容の違いにより、全員の理解に一貫性がなく、シナリオ内のさまざまな特殊性を理解できない可能性があります。しかし、継続的なコミュニケーションと交流によって多くの問題を解決できると信じています。先ほど、職場の基本スキルとデータ指標システムについて分析しました。今日は前回の記事で紹介した指標システムをベースにしたデータウェアハウスの構築とデータの可視化についてお話しします。

歴史的紹介:

小規模上級者向け: データ指標システムとデータガバナンス管理

ヒント: 配達品質で競合他社に勝つように努めましょう

以下、お楽しみください:

前回の記事では、インジケーター システムを構築する必要がある理由について説明しました。指標システムの役割と重要性をまだ理解できない場合は、歴史的紹介を通じて前の 2 つの記事を確認するか、WeChat グループに参加して全員とコミュニケーションをとることができます。ここでは指標システムを確立することの重要性を2つの文章で簡単に説明します。

  • 指標システムを構築することは、実際には需要側と一種の合意に達することであり、信頼性の低い需要を効果的に抑制し、需要を体系的かつ組織的にすることができます。
  • データインジケーターシステムは、データウェアハウスの構築を導く基礎となります。安定した体系的なデータ要件は、データ ウェアハウス ソリューションの最適化と効率性の向上に役立ちます。

データ インジケーター システムのないチーム内のデータ需要は、多くの場合、「膨張した」現象として現れます。誰もがデータに対して独自の視点と要求を持っており、非専門的な方法で次元/指標のデータ キャリバーを作成します。データ実践者は膨​​大なデータ要求に巻き込まれており、ビジネスルールに基づいて設計されたソリューションを抽出することは困難です。最終的には、維持管理が難しい「煙突型」のデータ ウェアハウスを構築することになります。

データ視覚化ソリューションを提供するプロセスには、データ ウェアハウスの構築と同じ問題が依然として存在します。データ視覚化レポートの数は増加していますが、利用率は低く、データレポートがいくつあっても、データのニーズを満たすにはほど遠い状況です。長期的には、メンテナンスコストは高いままであり、効率率は十分に高くありません。これはデータ実践者にとって非常に憂慮すべきことです。他にも気になる問題があり、引き続き深いコミュニケーションと理解を深めたい場合は、コメントを残したり、WeChat グループチャットに参加してコミュニケーションをとったりしてください。

データ ウェアハウスの階層化の問題を簡単に思い出し、データが整然と流れるように「広く薄い」データ ウェアハウスの階層化を行いましょう。データ チェーンのライフ サイクル全体は、レイヤーを通じてのみ、ユーザーがクリーンアップして明確に認識し、利用できるようになります。レイヤー間の依存関係、循環依存関係、または多重依存関係があると、データの問題が頻繁に発生し、保守が困難になります。

  • データウェアハウスの一般的な階層化方法

  • データ ウェアハウスの階層化とクロスレイヤー依存関係、循環依存関係、および多重依存関係のさまざまな表現

したがって、データをより秩序立てて効果的に整理し、管理する必要があります。

  • 各レイヤーには範囲と責任があり、各レイヤーでのデータのターゲットの位置付けと理解が明確に定義されます。
  • 作業方法を標準化し、標準的なデータ階層化を実行し、結合や繰り返し計算の問題を回避するために、汎用性の高い(堅牢な)データ中間層を開発します。
  • 統一されたデータサービスを提供し、統一されたデータ品質を出力します
  • 複雑なデータ タスクを分解し、標準的な手順で各レイヤーのシナリオの問題を解決します。

データ ウェアハウスの階層化の観点から見ると、ODS レイヤーはビジネスに近く、その形式は主にビジネス データの形式に依存します。 APP レイヤーは使用シナリオに近く、データの表示方法と消費方法によって異なります。 DW 層は中間層であり、重要な拡張の役割を果たしており、大量のデータ処理と計算の責任を担っています。

データ ウェアハウスの上記の階層ロジックを考慮すると、結論を導き出すのは難しくありません。

  • ODS レイヤーの構築には多くの考慮は必要なく、ビジネス ライブラリのプレゼンテーションに依存します。
  • APP レイヤーは、データの最終的なシーン構築に大きく依存し、主に多次元性、速度、口径などのシーン要因を考慮します。

DW レイヤーだけが、データ プロデューサーに大きな余地を与えます。優れた(高度にスケーラブルな)DW レイヤーをどのように設計するかが、データ ウェアハウスの重要な標準です。多くの学生が DW レイヤーを構築する過程で、「理想は非常に良いが、現実は非常に残酷」であり、構築されたデータは「根拠がなく実用的ではない」という同様の問題に遭遇し、依然としてデータ需要の問題を解決できず、常にビジネスの発展と変化に追いつくことができないと考えています。

したがって、今後は、まず指標システムを確立し、その指標システムに基づいてデータ ウェアハウスを構築するのがよいでしょう。当社の共通指標システムには、一般的に次のものが含まれます。

  1. 製品フレームワーク

  1. データマトリックス

例:

製品のフレームワークに基づいて、信頼できるデータ マトリックスを整理するのが最適です。しかし、現実には、製品フレームワークに基づくさまざまなレポートの指標の能力や計算ロジックは異なる場合があります。したがって、データ マトリックスは、特定のレポートに基づいた小さなターゲット マトリックスになる可能性があります。

  1. データ容量

注: データ マトリックスと同様に、同じインジケーター名でも、データ レポートによってデータ キャリバーや計算ロジックが異なる場合があります。したがって、インジケーターの口径の定義にいくつかの調整を加えることができます。例えば、口径や計算ロジックが異なる場合は、異なる指標名を区別する必要があります。または、同じ指標名の場合、指標の口径の定義を説明して、違いがどこにあるかを視聴者に知らせる必要があります。

一般的なデータ ウェアハウスの構築とデータの階層化は、大きく分けて 2 つのモードに分けられます。

  • モード A: ビジネス エンティティまたはデータのアプリケーション シナリオに基づいて、プロセスはアプリケーション層から最下層まで推論されます。
  • モード B: 既存のデータに基づいて、最下層からデータを分類および整理し、アプリケーション層まで徐々に構築します。

最下層からアプリケーション層までのデータ ウェアハウスの構築では、需要がまだ明確でないときにデータ開発作業を実行することに重点を置いています。まず、データの前処理が実装され、データの収集とドッキング、およびデータ主体の分類が適切に行われます。データ消費シナリオが実装されるときに機能を迅速に開発するため。このモデルは汎用性が高く、広く使用されていますが、多くの冗長性と不合理な設計も引き起こします。実際のニーズに対応する場合、拡張性が悪く、再構築の可能性が高いです。

もう 1 つのモデルは、明確な要件に基づいて、基礎となる需要からデータ ウェアハウス モデリングを導き出すことです。要件を通じて、プロジェクトに関わるすべての関係者は、ビジネス要求を迅速に理解し、目標に対する理解を統一することができます。ビジネスニーズとデータウェアハウスの関係を高品質に整理し、ターゲットを絞ったデータウェアハウスを構築します。しかし、データ構築は「煙突型」の構築になりがちで、限られたシナリオしか満たさず、再利用性が低いという批判も残っています。

指標システムに基づいてデータ ウェアハウスを構築することで、主に「モデル A」におけるデータ シナリオの考慮が不完全であるという問題が解決されます。データの使用シナリオを総合的に考慮しないと、再利用性が低い「煙突型」のデータ構築になってしまいます。データのニーズが、全体的な理解と計画なしに「点状」の断片の形で提案された場合、データ ウェアハウスの構築は「点状の煙突スタイル」でしか対象にできません。ニーズを体系的に出力できれば、ビジネスシナリオで必要な次元や指標を整理することができます。これにより、データ モデリング プロセスにおける「煙突型」の問題が最大限に解決され、データ構造が「幅広く薄い」ものになります。

例えば、次のデータマトリックスがあります

-w505

次に、選択できるデータウェアハウス階層モデリング手法は次のとおりです。

-w713

説明ライブラリ。表 1: データの視覚化、データ アプリケーション サービス、および多次元クエリは、APP レイヤーのデータ テーブル サービスを通じて提供されます。 Library.Table 2: 他のリアルタイム テーブル (Library.Table 3) またはディメンション テーブル (Library.Table 4、5) と関連付けて APP レイヤーのデータ テーブルを生成することによって生成されるリアルタイム詳細テーブル。ライブラリ.表6: 埋め込みデータ、またはビジネスライブラリから接続されたビジネスデータ(注文データなど)によって生成されたログテーブル

著者: Xiao Ji は、有名なインターネット企業の製品エキスパートであり、データの収集、生成、処理についてある程度の知識を持っています。彼は、適切な質問をし、ビジネス価値を発見するための基礎としてデータを使用します。

<<:  運用データ化(商品のデジタル運用を説明するマインドマップ:トラフィックと売上高を増やすためのツールとモデル)

>>:  運行データ統計表(2021年12月の地下鉄乗客数データが​​公開され、厦門は1,800万人近く、福州は1,100万人近く)

推薦する

The Retailer WordPress 電子商取引テーマはいかがでしょうか?

The Retile はどうですか? Retileは特徴的で人気があり、多用途ですウーコマーステーマ...

運用データ分析ツールは何ですか?(一般的な Taobao データ分析ツールは何ですか?)

一般的な Taobao データ分析ツールは何ですか?みなさんこんにちは。私は Yishang Cus...

業務のためのデータ分析能力(業務能力の向上はデータ分析と切り離せない)

運用能力の向上はデータ分析と切り離せないデータはどの程度意味があるのでしょうか?人口や税金など、現代...

Linux VPS を再起動する方法 Linux VPS 再起動コマンド

国内または海外のサーバーを一定期間実行した後、システム内にメモリを占有する実行中のプログラムが多数存...

Odoo チュートリアル: コマンドを使用して Odoo データベースをバックアップ/復元する方法

Odoo は、データベースのバックアップと復元を通じて動作します。postges コマンドラインを使...

データ操作 データ分析 (「SQL データ分析の実践」操作 SQL 実用マニュアル)

「SQL データ分析の実践」運用 SQL の実践マニュアルデータパーソン学習プラットフォームはオン...

ブランド企画部(イベント企画会社にはどんな職種があるの?)

イベント企画会社ではどのようなポジションが募集されていますか?イベント プランニング マネージャー:...

口コミブランドマーケティング(口コミマーケティングをうまく行う10の方法)

口コミマーケティングを行う10の方法消費者の口コミによるプロモーション手法である口コミマーケティング...

麻雀台売上ランキングリスト(麻雀台売上リスト公開!1990年代生まれが最も多く購入、売れ行き好調の秘密とは?)

麻雀マシンのベストセラーリストを公開! 1990年以降に生まれた世代が最も多く購入した。完売の秘密は...

無料オンラインプロモーションプラン(現在、企業ネットワークプロモーションで最も人気のある6つの方法(最も効果的な無料プロモーション方法))

現在最も普及している企業ネットワークプロモーションの6つの方法(最も効果的な無料プロモーション方法)...

2020年の携帯電話販売ランキング(AIコンピュータ市場を巡る戦いが始まる)

AIコンピュータ市場をめぐる戦いが始まったリファレンスニュースネットワークは7月6日、7月1日の日...

WPCOM 国内 WordPress テーマ認証アクティベーション グラフィック チュートリアル

WPCOMは国内有数のWodPessオリジナル有料テーマ販売プラットフォームです。このプラットフォー...

ブランドプランニングには、中小企業のブランドプランニングはどのように行うのでしょうか?ブランドプランニングにはどのような側面が含まれますか?

中小企業のブランド企画はどうすればいい?ブランドプランニングにはどのような側面が含まれますか?ブラン...

販売台数上位10位の軽商用車(軽商用車の選び方?江鈴フォードの軽商用車市場シェアは11月に37%に達し、業界1位に)

軽商用車の選び方は?江鈴フォードの小型商用車の市場シェアは11月に37%に達し、業界トップとなった。...