ビッグデータ運用(ビッグデータ管理について知っておくべきこと)

ビッグデータ運用(ビッグデータ管理について知っておくべきこと)

ビッグデータ管理について知っておくべきこと

ビッグデータ時代の静かな到来とともに、ビッグデータの価値が徐々に広く認識されるようになりました。ビッグデータを効果的に管理してデータ資産として蓄積し、社内でデータ資産の付加価値を実現し、社外でデータの共有と収益化を実現することは、企業の共通の要求です。

しかし、企業は基盤となるデータの管理において、さまざまな課題に直面することがよくあります。さまざまなビジネス システムが分散しており、情報の孤島が形成されています。統一されたデータ標準が確立されていない。データ処理能力が弱い。データは相互運用可能ではないため、データ共有メカニズムを確立することが困難です。

この記事では、ビッグデータ管理の 2 つの重要な概念である、データ ウェアハウスデータ ガバナンスについて説明します。

(トップ) データ ウェアハウス

|データ ウェアハウスとは何ですか?

データ ウェアハウスは、データベース ベースの構築プロセスです。これは、主題指向の統合された比較的安定したデータ収集であり、歴史的変化を反映し、管理上の意思決定をサポートするために使用されます。

データ ウェアハウスを構築する前に、複数のソース テーブルをクエリして分析する必要があります。クエリが遅く、データ品質が低く、価値の高いデータ分析を実行できません。データ ウェアハウスを構築することで、複数のシステム ソース データに 1 か所ですばやくアクセスし、OLAP 分析に迅速に対応できるようになります。データの品質と一貫性を向上する。履歴データの保存を提供する。データ価値のマイニングとデータ分析にさらに役立ちます。

|データ ウェアハウスとデータベースの違い

データベースはモノ向けに設計されており、ビジネス トランザクション処理 (OLTP) に重点を置いていますが、データ ウェアハウスはサブジェクト向けに設計されており、データ分析レベル (OLAP) に重点を置いています。

データベースは通常、オンライン トランザクション データを格納しますが、データ ウェアハウスは履歴情報を反映し、変更できない履歴データを保存します。

データベースは冗長性を回避しようとしますが、データ ウェアハウスは意図的に冗長性を作成し、スペースと時間を交換します。

銀行業務を例にとると、銀行で顧客が行ったすべての取引は、取引システムのデータ プラットフォームである「会計」システムとして機能するデータベースに記録する必要があります。データ ウェアハウスは分析システムのデータ プラットフォームであり、トランザクション システムからデータを取得して集約および処理し、分析による意思決定をサポートします。たとえば、支店で毎月どのくらいの取引が発生しているか、現在の預金残高はいくらかなどを把握して、ATM を追加するかどうかを決定します。

|データウェアハウスの全体的なフレームワーク

データ ソース レイヤー:

データベース、構造化電子ファイル、非構造化データ ファイル、動作ログなど、データ ウェアハウスがアクセスする必要があるデータ ソースをインベントリします。最終的に、データ ウェアハウスにアクセスすると、すべてのデータ タイプが、データベース テーブルと電子構造化ファイルの 2 つのデータ形式に変換されます。

データ アクセス層:

さまざまな上位層アプリケーション シナリオに応じて、アクセスはリアルタイム アクセスとバッチ アクセスに分けられます。

リアルタイム アクセス: リアルタイム アクセス データの場合は、ストリーミング方式で Kafka に書き込み、後続の消費用にトピックを作成します。

バッチ アクセス: バッチ アクセス データには、主に 4 つの処理ロジックがあります。

Kafka に書き込まれたデータは Spark によって消費され、処理後に HDFS に書き込まれ、その後 Hive テーブルにロードされます。バッチ転送はFTPを使用して実行されます。 sqoop は、データベース データを HDFS または Hive にバッチで移行するために使用されます。データ共有および交換プラットフォームは、データベースまたはファイル データを抽出して保存します。

データコンピューティング層:

ETL タスク開発。必要に応じて対応するファクト ディメンション テーブルまたはマート レベルのテーブルを生成します。業界では通常、データ ウェアハウスを 4 層アーキテクチャで構築します。

  • バッファ層である STG 層は、主にソース システムから提供されるデータを受信するために使用されます。
  • 運用データ ストレージ層である ODS 層は、ソース システムと同じデータ構造を保存するため、データ品質の監査とデータ処理が容易になります。バッファ レイヤーの増分データはこのレイヤーで結合されます。
  • DW レイヤー (データ ウェアハウス) は、アクセス データをモデル化して、すべてのトピックの共通コレクションを形成します。
  • 特定のビジネス アプリケーション用に構築された DM レイヤー、データ マート、ローカル DW。

図: ODS から DW への統合例

データアプリケーション層:

次のような、データ ウェアハウスに基づくトップレベルのアプリケーションは多数あります。

  • リアルタイム統計:ストリーミング処理を通じて、データがシンプルな指標にまとめられ、アプリケーション側で指標の結果をリアルタイムで表示します。
  • 多次元分析: データの多次元複合分析 (スライス、ダイシング、ドリル、回転など) を提供し、多次元分析モデルを BI レポート データの基礎として使用できます。
  • 製品の用途: タグ プロファイリング システムは、データ ウェアハウスで処理されたデータに基づいて、マクロ プロファイリングとマイクロ プロファイリングの分析を提供できます。ナレッジ グラフは、データ ウェアハウス内のクリーンなデータに基づいてエンティティと関係を構築できます。
  • データ サービス クラス: 外部関係者向けのインターフェイスの形式でデータのクエリと転送を提供したり、大量のデータのデータベースのインポートとエクスポート サービスを実行したりします。

(次へ) データガバナンス

|なぜデータガバナンスが必要なのでしょうか?

データガバナンスの技術手段と製品ツールを通じて、散在し多様化したコアデータを最適化し、企業内にデータ管理システムを形成し、企業の組織構造と組み合わせてデータ制御実行システムを形成します。これにより、企業内で継続的に運用され、マイニングデータの応用価値が向上します。

データ ガバナンスの最終的な目標は、次の 6 つのポイントに要約できます。

  • 統合: データ標準を統一し、統一されたデータ資産管理システムを確立します。
  • 品質: 正確性、一貫性、適時性など、データの品質を向上させます。
  • コスト: データ ライフサイクルを最適化し、データ管理および運用コストを削減します。
  • セキュリティ: データのセキュリティを確保し、データ アクセス制御を強化します。
  • 付加価値: データ資産の有効活用と価値の最大化を確保し、データ資産の保存と評価を確実にします。
  • アプリケーション: 上位レベルの内部および外部のエンタープライズ アプリケーションを出力およびサポートします。

|データガバナンスをどのように実施するか?

データ ガバナンスの 3 つの要素:データ標準データ品質監査メタデータ管理。以下でそれぞれについて詳しく説明します。

データ標準

ビジネスの観点から定義される、機器や会員データなど、異なるチャネルから取得されるが同じ意味を持つデータは、データ間で統一された標準と仕様を持つ必要があります。

技術的な観点からは、ID 情報、携帯電話番号、ID カード番号などのテーブル、フィールド、フィールド形式などを標準化する必要があります。

データ標準のソースは、国家標準、業界標準、またはビジネスベースのエンタープライズ標準です。

データ標準を定義した後、新しく構築されたデータ プラットフォームに統一されたデータ標準を採用する必要があります。既存のビジネス システムについては、オンライン操作に影響を与えることなく、データ標準を徐々に調整する必要があります。標準が実装された後は、長期的な監査と監視が必要となり、データ標準検証レポートを出力する必要があります。

図: データ標準管理サイクル

データ品質監査

データ標準をデータ制御のエントリ ポイントとして使用し、データ標準に基づいてデータ品質検証ルールを決定します。データ監査には 8 種類の監査ルールがあります。最初の 6 つのタイプは単一テーブル レベルの検証であり、最後の 2 つのタイプは複数テーブル レベルの検証です。

  • レコード番号検証: 監査テーブルに書き込まれた値が指定されたしきい値範囲内であるかどうかを確認します。
  • NULL 値のチェック: データの列に NULL 値が含まれているかどうかを確認します。
  • 一意性チェック: 列内のデータが一意であるかどうかを確認します。
  • データ形式の検証: 列内のデータが指定された形式仕様を満たしているかどうかを確認します (携帯電話番号の形式の検証など)。
  • 精度チェック: 列の値が特定の範囲 (ディメンションとしきい値を含む) 内にあるかどうかを確認します。
  • 変動値チェック: 列内のレコード数またはフィールドのデータ値を監視して、値の変動が過去のビジネス サイクルと比較して異常かどうかを確認します。
  • 一貫性チェック (複数のテーブル): 複数のテーブル間のデータが一貫しているかどうか。
  • 論理検証 (複数のテーブル): 監査テーブルを参照テーブル内の 1 つまたは複数のデータ列の式と比較し、データ ロジックが正しいかどうかを確認します。たとえば、「ビデオフォン ユーザー ステータス統計」テーブルの「請求対象ユーザーの合計」フィールド >=「ビデオフォン ユーザー使用特性統計」テーブルの「レコード内の請求対象ユーザーの合計」フィールド。

メタデータ管理

メタデータはデータを定義するデータです。たとえば、本のタイトル、著者、出版社、出版日はすべてメタデータです。

  • 系統分析: 系統分析とは、特定のエンティティから開始し、その処理プロセスをデータ システムのデータ ソース インターフェイスまで遡って追跡し、データの信頼性と品質を測定することを指します。
  • 影響分析: 影響分析とは、特定のエンティティから開始し、そのエンティティに依存する処理エンティティまたはその他のエンティティを見つけることを指します。データの流れに焦点を当て、ソース エンティティへの変更が下流のエンティティに与える影響を制御します。例えば、モバイルユーザートラフィック情報テーブル -> モバイル主要顧客情報テーブル -> 競合トピック/ユーザー分析または意思決定トピック/市場分析がフロントエンドに表示されます。

ゴミを入れればゴミが出る。これは永遠の真実です。基礎となる基本データを適切に管理することによってのみ、上位レベルのビッグデータ アプリケーションをより効果的にサポートできます。

著者: Herman Lee パーソナルプロダクト方法論の促進

<<:  主要顧客製品オペレーション(顧客サービスにおける主要顧客維持と成長のための運用方法(パート 1))

>>:  天猫運営データ分析(1,606の新ブランドがトレンドトラックで1位を獲得し、天猫は「効率的な」ブルーブックセットをまとめた)

推薦する

WPCOM テーマのアップグレード チュートリアルと FAQ

WPCOM テーマは、美しいインターフェースデザインだけでなく、豊富な機能とカスタマイズオプションも...

情報フロー広告クエリ(二流電子商取引|この記事を読んで情報フロー広告の具体的な運用プロセスを理解し、コンバージョンを向上させましょう)

二流電子商取引|この記事を読んで情報流通広告の具体的な運用プロセスを理解し、コンバージョンを向上させ...

戦略的ブランドマーケティング(延辺桑ブランド戦略発表:中国の桑、世界を養う!)

延辺桑ブランド戦略発表:中国の桑が世界を養う!世界の伝説、一緒に夏のイベントに行こう! 6月20日午...

どの WordPress 電子商取引テーマが最適ですか?おすすめのWordPress eコマーステーマ

最も人気のあるコンテンツ管理システムの 1 つである WodPess は、企業の Web サイト、電...

ユーザー操作の4つの側面(「ユーザー操作」を分析する6つのステップ)

「ユーザー操作」を分析する6つのステップ優れたユーザーオペレーションは、企業とユーザーとの親密度の...

店舗プロモーションプラン(店舗のプロモーション方法(オンラインストアのプロモーション方法))

店舗の宣伝方法(オンラインストアの宣伝方法)ネットワーク技術の発展と電子商取引の台頭により、オンライ...

風花ブランド企画(生放送で2500万元以上の売上を上げ、ファン数を85万人増加。風花ファンは大富豪を招いた)

ライブ放送により2500万元以上の売上を上げ、85万人のファンを獲得した。鳳華ファンは大きな幸運を歓...

Putty と Xshell のどちらが良いですか? Putty と Xshell の違い

Putty と Xshell は 2 つの SSH クライアント ツール ソフトウェアですが、どちら...

ドメイン名とは何ですか?ドメイン名の用途は何ですか?

私たちは日常的にインターネットを使用する際に、ドメイン名をよく耳にし、使用しています。ではドメイン名...

SSL 証明書で保護されるドメイン名の数に制限はありますか?どうやって選ぶ?

SSL 証明書は現在、Web サイトのデータのセキュリティを向上させ、ユーザーの個人情報を保護するた...

イベントブランドマーケティング(「ハッピーフライデー、ハッピー8」第3ステージシーンブランドマーケティングイベント、ハッピーストライク)

「ハッピーフライデー、ハッピー8」シーンブランドマーケティング活動の第3期が幸せにやってくる初夏の...

イベントブランド企画会社(黄秋奇:良いブランドは計画するものではなく、実行するものである)

黄秋奇:良いブランドは計画されるものではなく、創造されるものである出典:新浪金融中国広告主協会主催の...

電子商取引業務のためのデータ分析スキル(Taobao 運営者はデータ分析を通じて競合他社のデータをどのように把握するのか?)

タオバオ運営者はデータ分析を通じて競合他社のデータをどのように把握できるのでしょうか?最近は、あるカ...

EDM マーケティング プロモーション (EDM 電子メール マーケティングの詳細)

EDMメールマーケティングの詳細な説明EDM 電子メール マーケティングは、企業でよく使用されるマ...

観光イメージ推進計画(15のマーケティング戦略で高品質なサービスの観光ブランドイメージを構築し、乗客数を迅速に増加)

15のマーケティング戦略で、高品質なサービスで観光ブランドイメージを構築し、顧客トラフィックを迅速...