データセンター管理ソリューション（ビッグデータ管理プラットフォーム（データセンター）構築ソリューション）

ビッグデータ管理プラットフォーム（データセンター）構築計画

ビッグデータ管理ミドルプラットフォームを構築し、統一されたデータ仕様と標準システムに基づいて、統一されたデータ収集・ガバナンス・共有標準、統一された技術開発システム、統一されたインターフェースAPIを確立し、データ収集、プラットフォームガバナンス、業務アプリケーションの3層の分離を実現し、統一された標準形式で効率的なデータサポートサービスを提供することで、上位の業務アプリケーションシステムが業務とデータフローの整理と再構築に重点を置くことを確保し、データのプレッシャーを解放し、システム開発サイクルを節約し、システム構築効率を向上させ、企業と政府のきめ細かなデータガバナンス、分類された組織、正確なサービス、安全で制御可能なデータリソースシステムに対する管理目標を満たします。

ビジネスシステムがより複雑になると、ビッグデータ管理プラットフォームにおける主流のソリューションは技術的なミドルオフィスソリューションとなり、その主な目的は情報サイロを打破することです。

データセンターの構築においては、主に次の目標を掲げています。

（１）重複を排除し、建設の重複を避け、車輪や煙突スタイルの建築の再発明を避け、会社のコストを節約する。

（２）再利用：システムは迅速に再利用でき、標準化、コンポーネント化、疎結合されており、フロントエンドビジネスの迅速な反復と柔軟な革新をサポートします。

（３）能力の強化、継続的な蓄積、サービスの継続的な育成、システムの統一的な管理。

データセンターの構築には次の方法が使用されます。

（１）中間プラットフォーム構築の目標と領域を明確にする。

（２）バリューチェーンを整理し、機能ポイントを抽出する。

（３）中間プラットフォームを設計し、フロントエンド、ミドルエンド、バックエンドの関係を整理する。

意思決定支援ソリューションでは、使用するデータは品質管理と意思決定支援とともにデータウェアハウスに保存されます。どのような種類のデータが利用可能かを分析するというのが私たちの考えです。データミドルプラットフォームソリューションでは、データの価値に基づいてデータ駆動型のアプローチを採用し、より多くのデータを収集し、実行内容に基づいてどのようなデータを収集するかを決定します。データ運用最適化では、標準化されたデータを使用し、データアプリケーションを標準化し、中間プラットフォームを最適化し、データアプリケーションクローズドループ（データ分析クローズドループ）を形成します。

データサイロの問題を解決し、データの価値を高めて企業に還元します。データ主導のアプローチを採用し、必要なデータに基づいて適切な方法でデータを収集します。データのソースは、複数のシステムからの実際のデータと、機器によって収集されたリアルタイムデータに基づいています。

ビッグデータシステム（データミドルプラットフォーム）では、各サブシステムの静的データと収集されたリアルタイムストリーミングデータを標準化する必要があります。データガバナンスのプロセスでは、さまざまなデータソースにアクセスし、全体的なメタデータ管理機能を提供し、ディレクトリとラベルの管理を提供すると同時に、データ自体に対する権限アクセス、データ探索、品質レポートを提供して、データガバナンスの能力とレベルを向上させます。

展開、収集、保存、更新、識別、関連付け、マイニング、意思決定、アクション、フィードバックまでのクローズドループによってのみ、データによるビジネス推進が可能になります。データの信頼性を前提として、データ駆動型ビジネスはデータによって推進され、ビジネス上の意思決定を提供し、企業に利益をもたらします。ビッグデータ分析システム（データセンター）の構築には、以下のような課題があります。

（１）データ収集の正確性を判断することが困難である。データが一方から他方へ流れる際、変換率の問題は避けられません。非現実的で異常なデータを除外し、実際のデータを収集し、完全なデータのクローズドループを実現する方法によって、データマイニングとデータ分析を商業的価値に変えることができます。本物データの収集と異常データのフィルタリングは、ビッグデータプラットフォームの構築における難しさの 1 つです。

（２）技術選択の難しさビジネス関係者によってデータ要件は異なります。テクノロジーを選択する際には、これらの客観的な要件と主観的な好みに基づいて、さまざまなコンピューティングフレームワークとデータコンポーネントが選択されます。特定の業界に適したビジネスアーキテクチャと技術アーキテクチャを構築すると、企業の変革が容易になりますが、ビッグデータ分析システムの構築が難しくなります。

（３）データのニーズは多様であり、業務部門にはレポート計算、可視化ダッシュボード、データ探索、データサービス、結果プッシュ、データ収集と移行、ラベリングシステム、ユーザーリーチ、データアプリケーションなど、多様なニーズがある。

（４）データ管理が複雑である。データの解釈可能性と管理可能性に対する要件はますます厳しくなってきています。さまざまな新しいストレージアーキテクチャの追加により、メタデータ管理とデータ処理の標準化がより複雑になります。

（５）データ権限管理：権限制御はデータ対応システムにおいて重要な機能である。新しいコンピューティングアーキテクチャには、さまざまなレベルのデータ権限、組織構造、役割、権限ポリシーの自動化、権限管理を実装する必要があります。

（6）データコストは高く、定量化が難しい。データコストには、クラスターコスト、運用保守コスト、人件費、時間コストなどが含まれます。これらのコストを継続的かつ体系的に計算するには、対応する統計インターフェースをシステムアーキテクチャに追加する必要がありますが、既存のミドルプラットフォームのほとんどはこれらのインターフェースを考慮していません。

（７）データ標準を確立し調整することが困難である。データ標準化構築には、主にデータ構築仕様におけるデータセキュリティ仕様、データストレージ仕様、データモデリング仕様、データアクセス仕様が含まれます。データ消費仕様におけるデータ破棄仕様、データ呼び出し仕様、およびデータ許可仕様。

ビッグデータの難しさの分析では、主に技術的な難しさと組織的な難しさがあります。上記の問題に対して、私たちは以下の対策を提案しました。

1) ビジネス価値を一致させる。ビジネスシナリオが明確になり、優先順位が不明確になり、価値測定システムが確立される前に、大規模で包括的なデータプラットフォームを構築してすべてのデータを保存しないでください。入出力比率をもっと考慮してください。大規模で包括的なデータプラットフォームは、しばしば厄介な状況に直面します。多くの機能は非常に便利で、すべて使用する必要があるようですが、アプリケーションシナリオが不足しています。シナリオがあっても、そのままでは使用できず、多くのカスタマイズが必要であることがわかります。

2) 小さなデータと小さなシナリオから始めます。データミドルプラットフォームは、テクノロジー指向ではなくシナリオ指向です。このようなビジネスインフラストラクチャは、顧客のビジネス、企業の構造、情報開発の段階と密接に関連しています。大規模で包括的な製品を購入して、それを一気に解決するのは困難です。ローコードプラットフォームの組み込みコンポーネントとシナリオを活用して 3D 視覚化インターフェイスを構築し、効率的で高品質なソフトウェア開発を実現します。同時に、データミドルプラットフォームの開発ツールを組み合わせて、ローコードプラットフォームで構築されたシナリオアプリケーションにデータを提供します。

3) 技術選択の面では、Hadoop クラスター上に構築され、データ統合、データ準備、データマイニング (フルボリュームコンピューティング)、データ分析、データ可視化 (データ出力) が循環的なプロセスを形成します。データを接続することで、分析構造をリアルタイムに得ることができます。

データミドルプラットフォームとローコードプラットフォームを組み合わせるというアイデアにより、誰もが（特にマネージャーやビジネス担当者が）小さなデータと小さなシナリオから始めてオンラインコラボレーションおよび管理ツールを開発できるようになり、組織の効率とコラボレーション機能が根本的に向上します。ローコードプラットフォームがローコードデータプラットフォームとローコード開発プラットフォームの両方の機能を備えている場合、企業のデジタル管理を効率的に進めることができます。

（１）データセンターの機能アーキテクチャ

データセンターの全体的な機能アーキテクチャを図に示します。

データツールプラットフォーム層は、データミドルプラットフォームのキャリアであり、データ収集、ストレージ、コンピューティング、データセキュリティなどのビッグデータ処理の機能テクノロジが含まれています。また、オフラインまたはリアルタイムデータR＆Dツール、データ接続ツール、ラベル設計ツール、アルゴリズムプラットフォームツール、データサービスツール、セルフサービス分析ツールなど、データ構築における一連のR＆Dツールも含まれます。

データ資産層は、データの中核層であり、主題ドメインモデル領域、ラベルモデル領域、アルゴリズムモデル領域に分けられます。サブジェクトドメインモデルはビジネス分析に向けられており、ビジネスプロセスまたはディメンションの抽象的なコレクションです。ビジネスプロセスは、切り離せない動作の事実として要約できます。ラベルモデルには通常、企業のビジネス運用プロセス内のエンティティオブジェクトが含まれます。これらのエンティティオブジェクトは通常、さまざまなビジネスフローに散在しています。アルゴリズムモデルはビジネスシナリオに近くなります。アルゴリズムモデルを設計する際には、モデルのコールドスタートなどの問題を含め、アルゴリズムモデルの使用シナリオを繰り返し推測する必要があります。

データアプリケーション層では、データミドルプラットフォームの使命はビジネスに貢献することです。ほぼすべての企業が、データミドルプラットフォームを構築しながらデータアプリケーションを計画しています。データアプリケーションは、使用シナリオに応じて、分析および意思決定アプリケーション、ラベリングアプリケーション、インテリジェントアプリケーションに分類できます。

（２）データセンターの技術的アーキテクチャを図に示す。

※データウェアハウスのデータソースを提供するデータソース層。この技術アーキテクチャは、構造化データ、非構造化データ、およびファイルログをサポートします。

※データ転送層では、構造化データ同期ツールはSqoop、非構造化データ同期ツールはDataX、ログファイルはデータ収集ツールFlumeを使用します。

※データストレージ層は、基盤となるデータストレージ層としてHDFS（分散ファイルシステム）を使用します。このシステムでは、時系列データを保存し、ビジネス層にデータサービスを提供するために HBase データベースが提供されます。このストレージレイヤーは、Kafka でのデータの二次処理と保存をサポートします。

※ リソース管理層は、主にノードのハードウェアリソース、ノードのリソース内の CPU とメモリの管理を提供します。

※データコンピューティング層：オフラインコンピューティングとリアルタイムコンピューティングの2つのコンピューティング方法を提供し、コンピューティング結果の階層的モデリングを実行します。この技術ソリューションでは、DWD（データ詳細層）、DWS（データサービス層/データ主体層）、ADS（データアプリケーション層）が採用されています。

※ビジネスレイヤー：主にデータの計算結果を表示するために使用されます。

1. データウェアハウス階層化技術

※ ODS 層：オリジナルデータ層。オリジナルデータを保存し、オリジナルログとデータを直接読み込み、データを加工せずにオリジナル形式のまま保存します。

※ DWD レイヤー: ODS レイヤーのデータをクリーンアップ (NULL 値、ダーティデータ、制限範囲を超えるデータの削除)、次元劣化の感度低下などを行います。

※ DWSレイヤー：DWDをベースに日次ベースで軽くまとめたもの。

※ DWTレイヤー：DWSをベースにトピックごとにまとめたもの。

2. データ標準化設計技術

（１）ODSオリジナルデータ層

Ods レイヤーの名前空間 namespace=ods;

Ods レイヤーテーブルの命名方法: tablename = ソースシステム名 + テーブル名;

このレイヤーのデータは、最初に Kafka からアクセスされ、次に特定の方法で解析され、最終的に対応するテーブルに 1 つずつ保存されます。

（２）DWD詳細データ層