ビッグデータ管理プラットフォーム(データセンター)構築計画ビッグデータ管理ミドルプラットフォームを構築し、統一されたデータ仕様と標準システムに基づいて、統一されたデータ収集・ガバナンス・共有標準、統一された技術開発システム、統一されたインターフェースAPIを確立し、データ収集、プラットフォームガバナンス、業務アプリケーションの3層の分離を実現し、統一された標準形式で効率的なデータサポートサービスを提供することで、上位の業務アプリケーションシステムが業務とデータフローの整理と再構築に重点を置くことを確保し、データのプレッシャーを解放し、システム開発サイクルを節約し、システム構築効率を向上させ、企業と政府のきめ細かなデータガバナンス、分類された組織、正確なサービス、安全で制御可能なデータリソースシステムに対する管理目標を満たします。 ビジネスシステムがより複雑になると、ビッグデータ管理プラットフォームにおける主流のソリューションは技術的なミドルオフィスソリューションとなり、その主な目的は情報サイロを打破することです。 データセンターの構築においては、主に次の目標を掲げています。 (1)重複を排除し、建設の重複を避け、車輪や煙突スタイルの建築の再発明を避け、会社のコストを節約する。 (2)再利用:システムは迅速に再利用でき、標準化、コンポーネント化、疎結合されており、フロントエンドビジネスの迅速な反復と柔軟な革新をサポートします。 (3)能力の強化、継続的な蓄積、サービスの継続的な育成、システムの統一的な管理。 データセンターの構築には次の方法が使用されます。 (1)中間プラットフォーム構築の目標と領域を明確にする。 (2)バリューチェーンを整理し、機能ポイントを抽出する。 (3)中間プラットフォームを設計し、フロントエンド、ミドルエンド、バックエンドの関係を整理する。 意思決定支援ソリューションでは、使用するデータは品質管理と意思決定支援とともにデータ ウェアハウスに保存されます。どのような種類のデータが利用可能かを分析するというのが私たちの考えです。データ ミドル プラットフォーム ソリューションでは、データの価値に基づいてデータ駆動型のアプローチを採用し、より多くのデータを収集し、実行内容に基づいてどのようなデータを収集するかを決定します。データ運用最適化では、標準化されたデータを使用し、データアプリケーションを標準化し、中間プラットフォームを最適化し、データアプリケーションクローズドループ(データ分析クローズドループ)を形成します。 データ サイロの問題を解決し、データの価値を高めて企業に還元します。データ主導のアプローチを採用し、必要なデータに基づいて適切な方法でデータを収集します。データのソースは、複数のシステムからの実際のデータと、機器によって収集されたリアルタイム データに基づいています。 ビッグデータシステム(データミドルプラットフォーム)では、各サブシステムの静的データと収集されたリアルタイムストリーミングデータを標準化する必要があります。データ ガバナンスのプロセスでは、さまざまなデータ ソースにアクセスし、全体的なメタデータ管理機能を提供し、ディレクトリとラベルの管理を提供すると同時に、データ自体に対する権限アクセス、データ探索、品質レポートを提供して、データ ガバナンスの能力とレベルを向上させます。 展開、収集、保存、更新、識別、関連付け、マイニング、意思決定、アクション、フィードバックまでのクローズドループによってのみ、データによるビジネス推進が可能になります。データの信頼性を前提として、データ駆動型ビジネスはデータによって推進され、ビジネス上の意思決定を提供し、企業に利益をもたらします。ビッグデータ分析システム(データセンター)の構築には、以下のような課題があります。 (1)データ収集の正確性を判断することが困難である。データが一方から他方へ流れる際、変換率の問題は避けられません。非現実的で異常なデータを除外し、実際のデータを収集し、完全なデータのクローズドループを実現する方法によって、データマイニングとデータ分析を商業的価値に変えることができます。本物データの収集と異常データのフィルタリングは、ビッグデータ プラットフォームの構築における難しさの 1 つです。 (2)技術選択の難しさビジネス関係者によってデータ要件は異なります。テクノロジーを選択する際には、これらの客観的な要件と主観的な好みに基づいて、さまざまなコンピューティング フレームワークとデータ コンポーネントが選択されます。特定の業界に適したビジネスアーキテクチャと技術アーキテクチャを構築すると、企業の変革が容易になりますが、ビッグデータ分析システムの構築が難しくなります。 (3)データのニーズは多様であり、業務部門にはレポート計算、可視化ダッシュボード、データ探索、データサービス、結果プッシュ、データ収集と移行、ラベリングシステム、ユーザーリーチ、データアプリケーションなど、多様なニーズがある。 (4)データ管理が複雑である。データの解釈可能性と管理可能性に対する要件はますます厳しくなってきています。さまざまな新しいストレージ アーキテクチャの追加により、メタデータ管理とデータ処理の標準化がより複雑になります。 (5)データ権限管理:権限制御はデータ対応システムにおいて重要な機能である。新しいコンピューティング アーキテクチャには、さまざまなレベルのデータ権限、組織構造、役割、権限ポリシーの自動化、権限管理を実装する必要があります。 (6)データコストは高く、定量化が難しい。データコストには、クラスターコスト、運用保守コスト、人件費、時間コストなどが含まれます。これらのコストを継続的かつ体系的に計算するには、対応する統計インターフェースをシステムアーキテクチャに追加する必要がありますが、既存のミドルプラットフォームのほとんどはこれらのインターフェースを考慮していません。 (7)データ標準を確立し調整することが困難である。データ標準化構築には、主にデータ構築仕様におけるデータセキュリティ仕様、データストレージ仕様、データモデリング仕様、データアクセス仕様が含まれます。データ消費仕様におけるデータ破棄仕様、データ呼び出し仕様、およびデータ許可仕様。 ビッグデータの難しさの分析では、主に技術的な難しさと組織的な難しさがあります。上記の問題に対して、私たちは以下の対策を提案しました。 1) ビジネス価値を一致させる。ビジネスシナリオが明確になり、優先順位が不明確になり、価値測定システムが確立される前に、大規模で包括的なデータプラットフォームを構築してすべてのデータを保存しないでください。入出力比率をもっと考慮してください。大規模で包括的なデータ プラットフォームは、しばしば厄介な状況に直面します。多くの機能は非常に便利で、すべて使用する必要があるようですが、アプリケーション シナリオが不足しています。シナリオがあっても、そのままでは使用できず、多くのカスタマイズが必要であることがわかります。 2) 小さなデータと小さなシナリオから始めます。データ ミドル プラットフォームは、テクノロジー指向ではなくシナリオ指向です。このようなビジネス インフラストラクチャは、顧客のビジネス、企業の構造、情報開発の段階と密接に関連しています。大規模で包括的な製品を購入して、それを一気に解決するのは困難です。ローコード プラットフォームの組み込みコンポーネントとシナリオを活用して 3D 視覚化インターフェイスを構築し、効率的で高品質なソフトウェア開発を実現します。同時に、データミドルプラットフォームの開発ツールを組み合わせて、ローコードプラットフォームで構築されたシナリオアプリケーションにデータを提供します。 3) 技術選択の面では、Hadoop クラスター上に構築され、データ統合、データ準備、データマイニング (フルボリュームコンピューティング)、データ分析、データ可視化 (データ出力) が循環的なプロセスを形成します。データを接続することで、分析構造をリアルタイムに得ることができます。 データミドルプラットフォームとローコードプラットフォームを組み合わせるというアイデアにより、誰もが(特にマネージャーやビジネス担当者が)小さなデータと小さなシナリオから始めてオンラインコラボレーションおよび管理ツールを開発できるようになり、組織の効率とコラボレーション機能が根本的に向上します。ローコード プラットフォームがローコード データ プラットフォームとローコード開発プラットフォームの両方の機能を備えている場合、企業のデジタル管理を効率的に進めることができます。 (1)データセンターの機能アーキテクチャ データセンターの全体的な機能アーキテクチャを図に示します。 データツールプラットフォーム層は、データミドルプラットフォームのキャリアであり、データ収集、ストレージ、コンピューティング、データセキュリティなどのビッグデータ処理の機能テクノロジが含まれています。また、オフラインまたはリアルタイムデータR&Dツール、データ接続ツール、ラベル設計ツール、アルゴリズムプラットフォームツール、データサービスツール、セルフサービス分析ツールなど、データ構築における一連のR&Dツールも含まれます。 データ資産層は、データの中核層であり、主題ドメインモデル領域、ラベルモデル領域、アルゴリズムモデル領域に分けられます。サブジェクト ドメイン モデルはビジネス分析に向けられており、ビジネス プロセスまたはディメンションの抽象的なコレクションです。ビジネス プロセスは、切り離せない動作の事実として要約できます。ラベル モデルには通常、企業のビジネス運用プロセス内のエンティティ オブジェクトが含まれます。これらのエンティティ オブジェクトは通常、さまざまなビジネス フローに散在しています。アルゴリズム モデルはビジネス シナリオに近くなります。アルゴリズム モデルを設計する際には、モデルのコールド スタートなどの問題を含め、アルゴリズム モデルの使用シナリオを繰り返し推測する必要があります。 データ アプリケーション層では、データ ミドル プラットフォームの使命はビジネスに貢献することです。ほぼすべての企業が、データミドルプラットフォームを構築しながらデータアプリケーションを計画しています。データ アプリケーションは、使用シナリオに応じて、分析および意思決定アプリケーション、ラベリング アプリケーション、インテリジェント アプリケーションに分類できます。 (2)データセンターの技術的アーキテクチャを図に示す。 ※データウェアハウスのデータソースを提供するデータソース層。この技術アーキテクチャは、構造化データ、非構造化データ、およびファイル ログをサポートします。 ※データ転送層では、構造化データ同期ツールはSqoop、非構造化データ同期ツールはDataX、ログファイルはデータ収集ツールFlumeを使用します。 ※データストレージ層は、基盤となるデータストレージ層としてHDFS(分散ファイルシステム)を使用します。このシステムでは、時系列データを保存し、ビジネス層にデータ サービスを提供するために HBase データベースが提供されます。このストレージ レイヤーは、Kafka でのデータの二次処理と保存をサポートします。 ※ リソース管理層は、主にノードのハードウェアリソース、ノードのリソース内の CPU とメモリの管理を提供します。 ※データコンピューティング層:オフラインコンピューティングとリアルタイムコンピューティングの2つのコンピューティング方法を提供し、コンピューティング結果の階層的モデリングを実行します。この技術ソリューションでは、DWD(データ詳細層)、DWS(データサービス層/データ主体層)、ADS(データアプリケーション層)が採用されています。 ※ビジネスレイヤー:主にデータの計算結果を表示するために使用されます。 1. データウェアハウス階層化技術 ※ ODS 層:オリジナルデータ層。オリジナルデータを保存し、オリジナルログとデータを直接読み込み、データを加工せずにオリジナル形式のまま保存します。 ※ DWD レイヤー: ODS レイヤーのデータをクリーンアップ (NULL 値、ダーティデータ、制限範囲を超えるデータの削除)、次元劣化の感度低下などを行います。 ※ DWSレイヤー:DWDをベースに日次ベースで軽くまとめたもの。 ※ DWTレイヤー:DWSをベースにトピックごとにまとめたもの。 2. データ標準化設計技術 (1)ODSオリジナルデータ層 Ods レイヤーの名前空間 namespace=ods; Ods レイヤー テーブルの命名方法: tablename = ソース システム名 + テーブル名; このレイヤーのデータは、最初に Kafka からアクセスされ、次に特定の方法で解析され、最終的に対応するテーブルに 1 つずつ保存されます。 (2)DWD詳細データ層 Dwd レイヤーの名前空間 namespace=dwd; Dwd レイヤー テーブルの命名方法: tablename = ソース システム名 + テーブル名; Dwd レイヤーと Ods レイヤーには 1 対 1 の関係があります。 Ods レイヤー データのクリーニング (null 値、ダーティ データ、制限範囲を超えるデータの削除)、次元の劣化、感度低下などの処理が行われます。 (3)DWSサービスデータ層 Dws レイヤーの名前空間 namespace=dws; Dws レイヤー テーブルの命名方法 tablename = カスタム テーブル名; Dws レイヤーと Dwd レイヤーは 1 対多の関係にあり、Dwd レイヤーが基準となり、日ごとに光が集約されます。 (4)DWTデータ主体層 Dwt レイヤーの名前空間 namespace=dwt; Dwt レイヤー テーブルの命名方法 tablename=カスタム テーブル名; Dwt レイヤーと Dws レイヤーは 1 対多の関係を持ち、Dws レイヤーに基づいてトピックごとに要約されます。 データ ウェアハウス階層化テクノロジー。 ※ 明確なデータ構造: 各データ層には範囲と責任があり、テーブルを使用するときに見つけやすく、理解しやすくなります。 ※重複開発の削減:データの階層化を標準化し、共通の中間層データを開発することで、重複計算を大幅に削減します。 ※ データ容量の統一:データの階層化により、統一されたデータエクスポートを提供し、外部出力のデータ容量を統一します。 ※ 複雑な問題を簡素化: 複雑なタスクを複数のステップに分割し、各レイヤーで 1 つのステップのみを処理するようにすることで、よりシンプルで理解しやすくなります。データに問題が発生した場合、すべてのデータを修復する必要はなく、問題のあるステップから修復を開始するだけで済みます。 元のデータの異常を保護: ビジネスを変更した後もデータに再度アクセスする必要はありません。 |
<<: データミドルプラットフォーム運用ソリューション(「データミドルプラットフォーム」)
飲料水の成功するブランドを作るにはどうすればいいでしょうか? Golden InstinctはRun...
Bサイド製品業務の作業効率化を図る方法以下の記事は、Bサイドプロダクトオペレーションがどのように業...
今週(12月23日~12月27日)、3つの主要A株指数は上昇と下落を記録しました。金曜日の終値時点で...
酒類マーケティング3.0の時代、「Cエンドが王様」というインターネットマーケティングの論理を解体酒類...
インターネットマーケティングの一般的なプロモーション方法は何ですか?インターネット マーケティングは...
快手スーパープロダクトデーのGMVが2600万を突破、Gujia Furnitureは快手の優れたマ...
SEO 最適化に役立つウェブサイトを設計するにはどうすればよいでしょうか?多くの人は、ウェブサイト...
先週の金曜日の夜、友人が私に相談してきました。彼は2つのオファーを受けました: 1つは、年俸40万元...
「徹底調査」八維株式会社:革新と専門的テストを駆使した大手化粧品OEM(837023.BJ) ⭐記...
証券会社の月間収益ランキングが再編:CITICがトップの座を失い、中小規模の証券会社が急成長最近、上...
Linux システムで米国のサーバーまたは米国の VPS を使用する場合、多くの友人はコマンドを使用...
世界最大の家電メーカー:年間売上高約1兆6800億元、ソニーやLGエレクトロニクスを大きく上回る世界...
ネットワークマーケティングのポジションですか?インターネット マーケティングの職種には、主に Web...
WodPess 検索バーはユーザー エクスペリエンスの重要な部分であり、訪問者がコンテンツをすばやく...
医療管理者は医療業務に関する8つのデータインサイトを理解する必要がある外来受診者数は医療機関にとっ...