アリババのビッグデータへの道のり:データ管理の概要メタデータは、ソース データ、データ ウェアハウス、データ アプリケーションを接続し、データの生成から消費までのプロセス全体を記録します。メタデータは主に、データ ウェアハウス内のモデルの定義、各レベル間のマッピング関係を記録し、データ ウェアハウスのデータ状態と ETL タスクの実行状態を監視します。 メタデータは、その用途に応じて、テクニカル メタデータとビジネス メタデータの 2 つのカテゴリに分類できます。
メタデータは重要なアプリケーション価値を持ち、データ管理、データ コンテンツ、およびデータ アプリケーションの基礎となります。
メタデータの品質はデータ管理の精度に直接影響するため、メタデータを適切に構築する方法が重要な役割を果たします。メタデータ構築の目標は、データアクセスから処理、そしてデータ消費までのチェーン全体をオープンにし、メタデータシステムとモデルを標準化し、統一されたメタデータサービスのエクスポートを提供し、メタデータ出力の安定性と品質を確保することです。 価値: データに基づく意思決定、デジタル運用
中心的なアイデア: 複雑なデータに対して明確な血統マップを確立する。グラフ コンピューティング、ラベル伝播アルゴリズム、その他のテクノロジを通じて、コンピューティング プラットフォームとストレージ プラットフォーム上のデータを体系的かつ自動的にラベル付け、整理、アーカイブします。私たちは実際にメタデータを「描写する」という作業に着手し、次の 4 種類のラベルを開発しました。
アプリケーション リンク分析を通じて、テーブル レベルの系統、フィールドの系統、およびテーブル アプリケーションの系統が生成されます。テーブルレベルの親族関係を計算する主な方法は 2 つあります。
一般的なアプリケーション リンク分析アプリケーションには、影響分析、重要度分析、オフライン分析、リンク分析、ルート トレース、トラブルシューティングなどがあります。 メタデータ駆動型データ ウェアハウス モデル構築を通じて、この問題をある程度解決し、データ ウェアハウス モデリングのデータに基づくガイダンスを改善し、モデリングの効率を向上させることができます。
スター モデルの設計では、使用されるメタデータ情報には次のものが含まれます。
(履歴ベースのオプティマイザー) タスクが安定している場合は、タスクの履歴実行に基づいてリソース評価を検討することができます。つまり、HBOを使用します。
HBO は、データ量が劇的に増加する「ビッグセール」などのシナリオに対応するため、主にマップ内のデータ量の増加に基づいて、データ量に基づいてインスタンス数を動的に調整する機能も追加しました。 コストベース オプティマイザーは、収集された統計情報に基づいて各実行モードのコストを計算し、最適な実行モードを選択します。 JoinReorderとAutoMapJoinの最適化ルールを導入し、Volcanoモデルベースのオプティマイザーは検索幅を最大化して最適なプランを取得します。 ルールのホワイトリスト(使用する最適化ルール)とブラックリスト(閉じる最適化ルール)を設定できます。 オプティマイザーは PredicatePushDown 最適化を提供します。その主な目的は、述語フィルタリングをできるだけ早く実行して、後続の操作のデータ量を削減し、パフォーマンスを向上させることです。ただし、次の点に留意する必要があります。
マップ側でデータを読み取る場合、読み取られたデータのファイル サイズが不均一に分散されているため、一部の MapInstances は大量のデータを読み取って処理しますが、一部の MapInstances はほとんどデータを処理せず、マップ側にロング テールが発生します。 特に上流テーブルファイルのサイズが不均一で、小さなファイルが多く存在するため、現在のテーブルマップエンドで読み取られるデータの分布が不均一になり、ロングテールが発生します。これに対処するには 2 つの方法があります。
マップ側のロングテールの根本的な原因は、読み取りファイル ブロックのデータ分散が不均一であることと、UDF 関数のパフォーマンス、結合、集計操作などが組み合わさって、大量のデータを含むマップ インスタンスの読み取りに長い時間がかかることです。開発プロセス中にマップ側でロングテールが発生した場合は、まずマップインスタンスによって読み取られるデータ量を十分に均一にする方法を検討し、次にマップインスタンスを遅くする操作を特定し、最後にこれらの操作をマップ側で完了する必要があるかどうか、および他の段階でより適切に実行できるかどうかを検討します。 データの偏りによって発生するロングテール現象は非常に一般的であり、タスクの実行時間に重大な影響を及ぼします。特に「ダブルll」のような大規模イベント時は、ロングテールが普段以上に深刻です。例えば、大型店舗のPVは一般店舗のPVを大きく上回っています。閲覧ログデータがセラーディメンションテーブルに関連付けられると、セラーIDに従って配布されます。
Reduce 側のロングテールの主な理由は、キー データの不均一な分散です。
3コピーの圧縮ソリューション:アーカイブ圧縮方式、保存比率は約1:3から1:1.5に増加
ライフサイクル管理の基本的な目的は、最小限のストレージ コストで最大のビジネス ニーズを満たし、データの価値を最大化することです。
データ コストを、ストレージ コスト、コンピューティング コスト、スキャン コストの 3 つの部分に定義すると、処理チェーンにおけるデータの上流と下流の依存関係を適切に反映できます。
業界にはデータ品質を評価するためのさまざまな基準があります。 Alibaba は主に、完全性、正確性、一貫性、適時性の 4 つの側面からデータを評価します。 1. 完全性 データの整合性は、データに対する最も基本的な保証です。
2. 正確性
3. 一貫性
4. 適時性
アリババのデータ品質構築システム:
主に 2 つの部分でデータ ポイントをチェックします。オンライン システムとオフライン システムのデータ生成および処理の各リンクでデータ ポイントをチェックします。
リスクポイント監視: 主にデータ操作中に発生する可能性のあるデータ品質と適時性の問題を監視します。 リスクポイントは主に次の 2 つの側面で監視されます。
背景: Alibaba には巨大なデータ ウェアハウスがあり、データ サイズは EB レベルに達しています。これほど大量のデータを一般化すると、集中力の欠如や不正確さが必然的に生じます。 5 つのデータ レベルがあり、プロパティごとに重要度が徐々に低下します。
つまり、データが間違っていると、大きな資産損失、大きな利益損失、そして大きな公共リスクが発生します。
つまり、データは直接的または間接的に、グループの事業および業績の評価、重要なプラットフォームの運営と維持、外部データ製品の公開、およびアリババのウェブサイトにおけるユーザーの行動に影響を与えるために使用されます。
つまり、データは、社内の一般データ製品や運用/製品レポートに直接的または間接的に使用されます。問題が発生すると、部門や業務ラインに影響が出たり、作業効率が低下したりします。
つまり、データは主に Xiaoer による日常的なデータ分析に使用され、問題が発生しても影響はほとんどないか、まったくありません。
データの適用シナリオを明確に説明できない場合は、不明としてマークされます。
破壊性:A1レベル データが複数のアプリケーション シナリオに表示される場合は、上位の原則に従います。
解決すべき問題: 膨大な量のデータがある場合、各データにグレードのラベルを付けるにはどうすればよいでしょうか? データ資産レベルを実装するための方法/手順: データフロープロセス
データは、ビジネス システムからデータ ウェアハウス、そしてデータ製品へとテーブルの形式で提示されます。フロー プロセスを次の図に示します。 データ ウェアハウス (Alibaba では MaxCompute プラットフォーム) に同期されるデータはすべてビジネス データベースの元のテーブルであり、主にビジネス ニーズを満たすために使用され、データ製品に直接使用されることはほとんどありません。 (一般的には、ODS レイヤーの全データ量です) 使用されるデータ製品はすべて、データ ウェアハウスによって処理される出力テーブルです。 (要求/報告に応じて処理) 1. データ資産を分類する 要約: 上記の手順により、データ資産レベルが確認され、メタデータのサポートを必要とするデータごとに異なる重要度レベルが定義されます。 目的: データの正確性とオフライン データとの一貫性を確保する。
公開プラットフォーム: 大きな変更があった場合に通知を送信します。
機能: ビジネスに大きな変更が加えられた場合、サブスクリプション公開プロセスがオフライン開発者に提供され、変更の内容を通知します。 サブスクリプションコンテンツ: グループ全体の重要な高レベルのデータ資産については、データの処理に影響を与える変更を整理し、これらのコンテンツをサブスクリプションします。 チェックポイント: リリース プラットフォームには通知機能が統合されており、重要なシーンのリリースにチェックポイントを設定します。通知が確認された後にのみリリースを完了できます。
データベースの拡張であれ、ビジネス開発によるテーブル DDL の変更であれ、オフライン開発者に通知する必要があります。 DDL (データ定義言語): データベース スキーマ定義言語。データベースに保存される現実世界のエンティティを記述するために使用される言語。 DDL (データベース スキーマ定義言語) は、SQL 言語 (構造化クエリ言語) のコンポーネントです。 例: CREATE DATABASE (データベースの作成)、CREATE TABLE (テーブルの作成)。 DML (データ操作言語): データ操作言語コマンド。ユーザーはデータベースを照会し、既存のデータベース内のデータを操作できます。 たとえば、挿入、削除、更新、選択などはすべて DML です。 背景/問題: データ ウェアハウスは、データを抽出するときに DataX ツールを使用するため、特定のデータベース テーブルが制限される可能性があります。データベースが拡張または移行された場合、DataX ツールはそれを認識せず、データ抽出エラーや欠落が発生し、一連の下流アプリケーションに影響を及ぼす可能性があります。 解決策: データベース プラットフォームを通じてデータベース テーブルの変更通知を送信します。
データ資産レベルの上流と下流を接続する必要があります。このプロセスはオンライン開発者にも提供され、どれが重要なコアデータ資産で、どれが一時的に内部分析データとしてのみ使用されるかを開発者が把握できるようにする必要があります。 オンライン開発者の意識向上が必要です。トレーニングを通じて、オフライン データの要件、オフライン データの処理プロセス、データ製品の適用方法をオンライン ビジネス開発者に伝え、データの重要性を認識し、データの価値を理解できるようにします。同時に、エラーの結果も通知される必要があります。これにより、オンライン開発者はビジネス目標を達成する際にデータ目標に注意を払い、ビジネスエンドとデータエンドの間の一貫性を実現できます。
背景/質問: オンライン ビジネス システムからデータ ウェアハウス、そしてデータ製品へのデータのプロセスでは、データ ウェアハウス レベルでデータのクリーニングと処理を完了する必要があります。データ処理のために、データ ウェアハウス モデルとデータ ウェアハウス コードが構築されます。データ処理の品質をどのように確保するかは、オフライン データ ウェアハウスでのデータ品質を確保する上で重要な部分です。 目的: データ処理の品質(主にデータの正確性)を確保すること。 チェックポイントは次の 2 つの段階でチェックされます。
背景/理由: データ研究開発担当者の資質やコーディング能力はそれぞれ異なるため、コードの品質を効率的に保証することが困難です。 解決策: オンラインで送信されたすべてのコードをスキャンしてリスクポイントを抽出するコードスキャンツール SQLSCAN を開発します。 確認方法: コードスキャンツール SQLSCAN を使用してコードをスキャンし、リスクポイントを抽出します。
オンライン データの正確性を確保するには、すべての変更をオンライン環境にリリースする前にオフラインでテストする必要があります。リリースは、オンライン テストに合格した後にのみ成功したとみなされます。 チェックポイント方式: タスク (変更された業務を参照) をオンラインにリリースする前と後にテストします。
回帰テストの目的: 注: 資産レベルが高いタスクの変更では、強力なブロックが使用され、反対側で回帰テストが完了した後にのみリリースが許可されます。
オンライン環境とオフライン環境間の不整合によって発生する構文エラーを回避するために、コードを実行せず、実行プランのみを実行します。
実際のデータでテストします。
通知内容: 変更理由、変更ロジック、変更テストレポート、変更時刻など。 リスクポイント監視:主にデータの日常的な運用において発生する可能性のあるリスクを監視し、警報メカニズムを設定することを指します。 目的: データの正確性を確保するため。 1. オンラインデータリスクポイント監視
アラームを構成する: ルールごとに異なるアラーム フォームを構成します。 注: BCP は構成および運用コストが高いため、主にデータ資産レベルに基づいて監視されます。
オフラインデータリスクポイント監視には、主にデータの正確性とデータ出力の適時性の監視が含まれます。
データの正確さはデータ品質の鍵となるため、データの正確さはデータ品質の最優先事項となり、すべてのオフライン システム処理の第一の保証要素となります。 方法: データの正確性は DQC を通じて監視されました。 DQC (データ品質センター): データ品質に重点を置き、データ品質検証ルールを構成することで、データ処理タスク中にデータ品質を自動的に監視します。 注: データ品質の監視とアラームの発行では、データ出力自体は処理されないため、アラームの受信者が判断して処理方法を決定する必要があります。 監視方法: データ品質検査ルールを設定することで、データ処理タスク中に自動監視が実行されます。 監視ルール: 強力なルール: タスクの実行をブロックします。 タスクを失敗状態に設定すると、その下流のタスクは実行されません。 弱いルール: 警告のみ行い、タスクの実行をブロックしません。 一般的な DQC 監視ルール: 主キー監視、テーブル データ量と変動監視、重要なフィールドの非 null 監視、重要な列挙フィールドの離散値監視、インジケータ値の変動監視、ビジネス ルール監視など。 ルール構成: データ資産レベルに基づいて監視ルールを決定します。 DQC チェックは実際には SQL タスクを実行しますが、このタスクはメイン タスク内にネストされています。チェックポイントが多すぎると、全体的なパフォーマンスに影響します。したがって、ルールの構成は依然としてデータ資産レベルに依存します。 注: さまざまなビジネスにはビジネス ルールが適用されます。これらのルールは、データ製品または消費者のビジネス ニーズから派生したものです。これらはコンシューマー ノードで構成され、ルールの影響を最小限に抑えるために監視のためにオフライン システムの開始点にプッシュされます。
データの正確性を確保することを前提として、データがタイムリーにサービスを提供できることをさらに保証する必要があります。そうしないと、データの価値が大幅に低下するか、まったく価値がなくなる可能性があります。 Alibaba のオフラインタスクのほとんど: 時間間隔は通常 1 日であり、「毎日のタスク」と呼ばれます。日常業務では、データ製品またはデータ決定レポートを通常毎日 9:00 またはそれより早く作成する必要があります。 前日のデータの整合性を確保するため、毎日のタスクは深夜から実行を開始します。計算および処理タスクはすべて夜間に実行されるため、毎日のデータが時間どおりに生成され、重要なタスクが優先され、正しく生成されるようにするには、一連のアラームと優先順位の設定が必要です。 重要なタスク: 資産レベルの高いビジネス。
Map および Reduce タスクの場合、スケジュールはツリー構造 (RelNode ツリー) になります。リーフ ノード (RelNode ノード) の優先度が設定されると、この優先度はすべての上流ノードに渡されます。そのため、優先順位の設定はリーフノードに与えられ、リーフノードはサービスビジネスの消費者ノードであることが多いです。 優先順位を設定する: まず、ビジネスの資産レベルを決定します。高レベルのビジネスに対応するコンシューマー ノードは当然高い優先度で構成されますが、高レベルのビジネスが時間どおりに生成されるように、一般的なビジネスには低い優先度が割り当てられます。
タスクアラームは優先度に似ており、リーフノードを通じて送信されます。 運用中にタスクが失敗する可能性は避けられません。したがって、タスクが効率的かつスムーズに実行されるようにするには、監視および警報システムが必要です。優先度の高いタスクの場合、タスク エラーまたは出力遅延の可能性が見つかったら、タスクとビジネス オーナーにアラームを送信する必要があります。 モサド:アリが独自に開発した監視・警報システム。
Mossad: オフラインタスクの監視および警報システム。データの運用と保守に欠かせないツール。 オフライン タスクの実行ステータスに基づいて、アラームを発行するかどうか、いつ発行するか、どのように発行するか、誰にアラームを発行するかをリアルタイムで決定します。 2 つの主な機能: 強力なセキュリティ監視とカスタマイズされたアラーム。 強力なセキュリティ監視 強力なセキュリティ監視はモサドの中核機能であり、運用と保守の目標、つまりビジネスセキュリティのみを目的として設計されています。警告時間内に事業が脅かされる限り、モサドは必ず関係者に警報を発するでしょう。 強力なセキュリティ監視には主に次のものが含まれます。 監視範囲:強力な保証業務を設定するタスクとすべての上流タスクを監視します。 異常の監視: タスク エラー、タスクの速度低下、早期警告サービス遅延。 アラーム対象: デフォルトはタスク所有者ですが、特定の人物に担当リストを設定することもできます。 いつ警報を発するか: 企業が設定した警告時間に基づいて、いつ警報を発するかを決定します。 業務遅延警告とエラーアラームは、どちらも「出力警告時間」に基づいて決定されます。 出力警告時間: Mossad は、過去 7 日間の現在の業務のすべてのタスクの平均実行時間に基づいて、現在の業務のおおよその時間を出力警告時間として計算します。 アラーム方法: 業務の重要度と緊急度に応じて、電話、SMS、Wangwang、または電子メールでアラームを送信できます。 例:ビジネスアドバイザーサービス(業務遅延の警告) 資産レベルと要件: 定義されている資産レベルは A2 であり、出力データが午前 9 時にリストに表示可能である必要があります。 設定: ビジネス アドバイザー ビジネスに対して、ビジネス出力時間を 9:00、ビジネス警告時間を 7:00 として、強力なセキュリティ監視を定義します。 ここでの警告時間とは、モサドが現在の業務の出力時間が警告時間を超えていることを監視すると、当直中の人員に電話して警告することを意味します。 たとえば、モサドはビジネスアドバイザーの出力時間が 7:30 になると予測し、電話アラームを発し、当直担当者が出力を早める方法を決定します。出力時間推定(早期警告判定、つまり出力遅延判定):Mossad は、過去 7 日間の現在の業務におけるすべてのタスクの平均実行時間に基づいて推定します。誤判断の可能性はあるものの、一般的には非常に正確で許容できるものである。
カスタム モニタリングは、Mossad の比較的軽量なモニタリング機能です。ユーザーは、主に以下の点を含め、自分のニーズに応じて設定できます。
モサドは、事業の運営状況に基づいて、1日のクリティカルパス、つまり事業を完了するための最も遅いタスクチェーン図を提供します。各ビジネスには上流に何千ものタスクがある可能性があるため、このクリティカルパスはビジネス チェーンの最適化にとって非常に重要です。 データ ウェアハウスのデータ品質を確保する方法は多数あります。これらのソリューションの長所と短所を評価するには、一連の指標が必要です。
通常、データ ウェアハウスのタスクは夜間に実行されます。問題が発生すると、当直の担当者は夜中に起きて対処する必要があります。 夜間覚醒率: 月ごとの夜間覚醒回数は、データ品質構築の完璧さを測る指標として使用されます。
データ品質インシデント: すべてのデータ品質の問題を記録します。 データ品質の問題ごとに、データ品質イベントが記録されます。 機能: データ自体の品質だけでなく、アップストリームおよびダウンストリームのデータ リンクの品質を測定するために使用されます。これはデータ品質の重要な指標です。
重大なデータ品質インシデントの場合は、障害にアップグレードされます。 失敗: 重大な影響を及ぼし、企業に資産の損失や広報上のリスクをもたらした問題を指します。 背景: データ収集から最終消費まで、チェーン全体で数十のシステムを経由する必要があります。いずれかのリンクに問題があると、データの出力に影響します。したがって、さまざまなチームを結び付けて共通の目標を形成し、協力して作業するためのメカニズムが必要です。断層システムはこのような背景から誕生しました。 障害システムでは、障害が発生すると、障害システムを使用して関連チームにフォローアップを要求し、問題をできるだけ早く解決して影響を排除します。
まず、重要なビジネスデータを識別し、システムに登録します。技術担当者、業務担当者、データ適用シナリオ、遅延やエラーの影響、資産損失の発生の有無など、関連する業務情報を入力します。完了すると、この部分のデータのタスクがプラットフォーム ベースラインに添付されます。遅延やエラーが発生すると、障害を形成するために障害チケットが自動的に生成されます。
障害が発生すると、障害の持続時間、顧客からの苦情、経済的損失などの特定の基準に基づいて障害レベルが決定されます。障害は P1 から P4 まで等級分けされます。各チームには障害点の概念があり、年末には障害点に基づいて年間の運用・保守の成果が判断されます。
障害が発生したら、その影響を排除するために、障害の原因を迅速に特定し、速やかに解決する必要があります。 トラブルシューティングの際は、トラブルシューティングの進行状況を関係者に通知し、業務への影響を最小限に抑えるよう努めます。
障害レビュー: 障害の原因の分析、処理プロセスのレビュー、およびその後の解決策の策定が含まれます。これらはすべて書面で詳細に記録され、過失の責任は通常特定の人物に割り当てられます。 |
<<: ビッグデータ管理の意思決定(九三社会:ビッグデータは政府の意思決定を科学的にし、部門間の垣根をなくすのに役立つ)
>>: ビッグデータ運用管理(ビッグデータの魔法:産業運用最適化の秘密兵器と成功事例の発見)
新華社メディア+丨この処方箋は理にかなっている後漢末期河南省南陽市にゆかりのある2人彼らはそれぞれ有...
WHMCS などのホスティング財務管理ソフトウェアを使用する場合、ホスティング プロバイダーはこのソ...
都市管理は都市運営においてかけがえのない役割を果たしている都市管理は都市の運営においてかけがえのない...
春節マーケティング計画1. プロモーション活動1. 春節前に「新年を迎えて大幅割引」をテーマにしたプ...
元芳ブランドマーケティング戦略会社が2023年末業務総括会議を開催輝きを生み出し、優れた成果を達成し...
Haowuxuanの成功の秘訣:精密マーケティングとブランド構築は密接に関係している情報爆発と熾烈...
Whois Lookup は、ドメイン名登録情報を含むパブリック ディレクトリである Whois デ...
私は快適さが最も重要だと信じているヤオ・スーシンですHey Da PRから、ちょっと退屈を感じていま...
四川省スマート都市農村ビッグデータ応用研究協会のデータとネットワークセキュリティ専門委員会が設立され...
JustMediテーマはいかがでしょうか? JustMedi テーマは、画像、ビデオ、情報などのウェ...
インターネットがグローバル化した時代では、多くのウェブサイトやアプリケーションは、特に海外のユーザー...
春節期間中の不動産マーケティング活動は次のようになりますプラン1:新年祝福会!戦略計画:誰もが神や仏...
WodPess はこれまでずっと多くのユーザーに利用されてきたプラットフォームであり、利用率も依然と...
優れた戦略的製品要件ドキュメントの書き方プロダクトマネージャーの仕事において、要件定義書 (PRD)...
ブランド企業のマーケティングの実施方法前回の「ブランドとは何か、そしてブランドを登録する方法」の記事...