業務データの可視化（データウェアハウス構築と指標システムに基づくデータ可視化）

指標システムに基づくデータウェアハウス構築とデータ可視化

序文

データ作業における私の経験を共有する記事をまとめていきます。業務内容の違いにより、全員の理解に一貫性がなく、シナリオ内のさまざまな特殊性を理解できない可能性があります。しかし、継続的なコミュニケーションと交流によって多くの問題を解決できると信じています。先ほど、職場の基本スキルとデータ指標システムについて分析しました。今日は前回の記事で紹介した指標システムをベースにしたデータウェアハウスの構築とデータの可視化についてお話しします。

歴史的紹介:

小規模上級者向け: データ指標システムとデータガバナンス管理

ヒント: 配達品質で競合他社に勝つように努めましょう

以下、お楽しみください:

前回の記事では、インジケーターシステムを構築する必要がある理由について説明しました。指標システムの役割と重要性をまだ理解できない場合は、歴史的紹介を通じて前の 2 つの記事を確認するか、WeChat グループに参加して全員とコミュニケーションをとることができます。ここでは指標システムを確立することの重要性を2つの文章で簡単に説明します。

指標システムを構築することは、実際には需要側と一種の合意に達することであり、信頼性の低い需要を効果的に抑制し、需要を体系的かつ組織的にすることができます。
データインジケーターシステムは、データウェアハウスの構築を導く基礎となります。安定した体系的なデータ要件は、データウェアハウスソリューションの最適化と効率性の向上に役立ちます。

データインジケーターシステムのないチーム内のデータ需要は、多くの場合、「膨張した」現象として現れます。誰もがデータに対して独自の視点と要求を持っており、非専門的な方法で次元/指標のデータキャリバーを作成します。データ実践者は膨大なデータ要求に巻き込まれており、ビジネスルールに基づいて設計されたソリューションを抽出することは困難です。最終的には、維持管理が難しい「煙突型」のデータウェアハウスを構築することになります。

データ視覚化ソリューションを提供するプロセスには、データウェアハウスの構築と同じ問題が依然として存在します。データ視覚化レポートの数は増加していますが、利用率は低く、データレポートがいくつあっても、データのニーズを満たすにはほど遠い状況です。長期的には、メンテナンスコストは高いままであり、効率率は十分に高くありません。これはデータ実践者にとって非常に憂慮すべきことです。他にも気になる問題があり、引き続き深いコミュニケーションと理解を深めたい場合は、コメントを残したり、WeChat グループチャットに参加してコミュニケーションをとったりしてください。

データウェアハウスの階層化の問題を簡単に思い出し、データが整然と流れるように「広く薄い」データウェアハウスの階層化を行いましょう。データチェーンのライフサイクル全体は、レイヤーを通じてのみ、ユーザーがクリーンアップして明確に認識し、利用できるようになります。レイヤー間の依存関係、循環依存関係、または多重依存関係があると、データの問題が頻繁に発生し、保守が困難になります。

データウェアハウスの一般的な階層化方法

データウェアハウスの階層化とクロスレイヤー依存関係、循環依存関係、および多重依存関係のさまざまな表現

したがって、データをより秩序立てて効果的に整理し、管理する必要があります。

各レイヤーには範囲と責任があり、各レイヤーでのデータのターゲットの位置付けと理解が明確に定義されます。
作業方法を標準化し、標準的なデータ階層化を実行し、結合や繰り返し計算の問題を回避するために、汎用性の高い（堅牢な）データ中間層を開発します。
統一されたデータサービスを提供し、統一されたデータ品質を出力します
複雑なデータタスクを分解し、標準的な手順で各レイヤーのシナリオの問題を解決します。

データウェアハウスの階層化の観点から見ると、ODS レイヤーはビジネスに近く、その形式は主にビジネスデータの形式に依存します。 APP レイヤーは使用シナリオに近く、データの表示方法と消費方法によって異なります。 DW 層は中間層であり、重要な拡張の役割を果たしており、大量のデータ処理と計算の責任を担っています。

データウェアハウスの上記の階層ロジックを考慮すると、結論を導き出すのは難しくありません。

ODS レイヤーの構築には多くの考慮は必要なく、ビジネスライブラリのプレゼンテーションに依存します。
APP レイヤーは、データの最終的なシーン構築に大きく依存し、主に多次元性、速度、口径などのシーン要因を考慮します。

DW レイヤーだけが、データプロデューサーに大きな余地を与えます。優れた（高度にスケーラブルな）DW レイヤーをどのように設計するかが、データウェアハウスの重要な標準です。多くの学生が DW レイヤーを構築する過程で、「理想は非常に良いが、現実は非常に残酷」であり、構築されたデータは「根拠がなく実用的ではない」という同様の問題に遭遇し、依然としてデータ需要の問題を解決できず、常にビジネスの発展と変化に追いつくことができないと考えています。

したがって、今後は、まず指標システムを確立し、その指標システムに基づいてデータウェアハウスを構築するのがよいでしょう。当社の共通指標システムには、一般的に次のものが含まれます。

製品フレームワーク

データマトリックス

例:

製品のフレームワークに基づいて、信頼できるデータマトリックスを整理するのが最適です。しかし、現実には、製品フレームワークに基づくさまざまなレポートの指標の能力や計算ロジックは異なる場合があります。したがって、データマトリックスは、特定のレポートに基づいた小さなターゲットマトリックスになる可能性があります。

データ容量

注: データマトリックスと同様に、同じインジケーター名でも、データレポートによってデータキャリバーや計算ロジックが異なる場合があります。したがって、インジケーターの口径の定義にいくつかの調整を加えることができます。例えば、口径や計算ロジックが異なる場合は、異なる指標名を区別する必要があります。または、同じ指標名の場合、指標の口径の定義を説明して、違いがどこにあるかを視聴者に知らせる必要があります。

一般的なデータウェアハウスの構築とデータの階層化は、大きく分けて 2 つのモードに分けられます。

モード A: ビジネスエンティティまたはデータのアプリケーションシナリオに基づいて、プロセスはアプリケーション層から最下層まで推論されます。
モード B: 既存のデータに基づいて、最下層からデータを分類および整理し、アプリケーション層まで徐々に構築します。

最下層からアプリケーション層までのデータウェアハウスの構築では、需要がまだ明確でないときにデータ開発作業を実行することに重点を置いています。まず、データの前処理が実装され、データの収集とドッキング、およびデータ主体の分類が適切に行われます。データ消費シナリオが実装されるときに機能を迅速に開発するため。このモデルは汎用性が高く、広く使用されていますが、多くの冗長性と不合理な設計も引き起こします。実際のニーズに対応する場合、拡張性が悪く、再構築の可能性が高いです。

もう 1 つのモデルは、明確な要件に基づいて、基礎となる需要からデータウェアハウスモデリングを導き出すことです。要件を通じて、プロジェクトに関わるすべての関係者は、ビジネス要求を迅速に理解し、目標に対する理解を統一することができます。ビジネスニーズとデータウェアハウスの関係を高品質に整理し、ターゲットを絞ったデータウェアハウスを構築します。しかし、データ構築は「煙突型」の構築になりがちで、限られたシナリオしか満たさず、再利用性が低いという批判も残っています。

指標システムに基づいてデータウェアハウスを構築することで、主に「モデル A」におけるデータシナリオの考慮が不完全であるという問題が解決されます。データの使用シナリオを総合的に考慮しないと、再利用性が低い「煙突型」のデータ構築になってしまいます。データのニーズが、全体的な理解と計画なしに「点状」の断片の形で提案された場合、データウェアハウスの構築は「点状の煙突スタイル」でしか対象にできません。ニーズを体系的に出力できれば、ビジネスシナリオで必要な次元や指標を整理することができます。これにより、データモデリングプロセスにおける「煙突型」の問題が最大限に解決され、データ構造が「幅広く薄い」ものになります。

例えば、次のデータマトリックスがあります

-w505

次に、選択できるデータウェアハウス階層モデリング手法は次のとおりです。

-w713

説明ライブラリ。表 1: データの視覚化、データアプリケーションサービス、および多次元クエリは、APP レイヤーのデータテーブルサービスを通じて提供されます。 Library.Table 2: 他のリアルタイムテーブル (Library.Table 3) またはディメンションテーブル (Library.Table 4、5) と関連付けて APP レイヤーのデータテーブルを生成することによって生成されるリアルタイム詳細テーブル。ライブラリ.表6: 埋め込みデータ、またはビジネスライブラリから接続されたビジネスデータ（注文データなど）によって生成されたログテーブル

著者: Xiao Ji は、有名なインターネット企業の製品エキスパートであり、データの収集、生成、処理についてある程度の知識を持っています。彼は、適切な質問をし、ビジネス価値を発見するための基礎としてデータを使用します。

<<: 運用データ化（商品のデジタル運用を説明するマインドマップ：トラフィックと売上高を増やすためのツールとモデル）

>>: 運行データ統計表（2021年12月の地下鉄乗客数データが公開され、厦門は1,800万人近く、福州は1,100万人近く）