Alibaba ビッグデータ: データ管理の概要メタデータは、ソース データ、データ ウェアハウス、データ アプリケーションを接続し、データの生成から消費までのプロセス全体を記録します。メタデータは主に、データ ウェアハウス内のモデルの定義、各レベル間のマッピング関係を記録し、データ ウェアハウスのデータ状態と ETL タスクの実行状態を監視します。 詳細については、 「メタデータ管理を 1 つの記事で理解する」を参照してください。 メタデータは、その用途に応じて、テクニカル メタデータとビジネス メタデータの 2 つのカテゴリに分類できます。
メタデータは重要なアプリケーション価値を持ち、データ管理、データ コンテンツ、およびデータ アプリケーションの基礎となります。
メタデータの品質はデータ管理の精度に直接影響するため、メタデータを適切に構築する方法が重要な役割を果たします。メタデータ構築の目標は、データアクセスから処理、そしてデータ消費までのチェーン全体をオープンにし、メタデータシステムとモデルを標準化し、統一されたメタデータサービスのエクスポートを提供し、メタデータ出力の安定性と品質を確保することです。 価値: データに基づく意思決定、デジタル運用
中心的なアイデア: 複雑なデータに対して明確な血統マップを確立する。グラフ コンピューティング、ラベル伝播アルゴリズム、その他のテクノロジを通じて、コンピューティング プラットフォームとストレージ プラットフォーム上のデータを体系的かつ自動的にラベル付け、整理、アーカイブします。私たちは実際にメタデータを「描写する」という作業に着手し、次の 4 種類のラベルを開発しました。
アプリケーション リンク分析を通じて、テーブル レベルの系統、フィールドの系統、およびテーブル アプリケーションの系統が生成されます。テーブルレベルの親族関係を計算する主な方法は 2 つあります。
一般的なアプリケーション リンク分析アプリケーションには、影響分析、重要度分析、オフライン分析、リンク分析、ルート トレース、トラブルシューティングなどがあります。 メタデータ駆動型データ ウェアハウス モデル構築を通じて、この問題をある程度解決し、データ ウェアハウス モデリングのデータに基づくガイダンスを改善し、モデリングの効率を向上させることができます。
スター モデルの設計では、使用されるメタデータ情報には次のものが含まれます。
(履歴ベースのオプティマイザー) タスクが安定している場合は、タスクの履歴実行に基づいてリソース評価を検討することができます。つまり、HBOを使用します。
HBO は、データ量が劇的に増加する「ビッグセール」などのシナリオに対応するため、主にマップ内のデータ量の増加に基づいて、データ量に基づいてインスタンス数を動的に調整する機能も追加しました。 コストベース オプティマイザーは、収集された統計情報に基づいて各実行モードのコストを計算し、最適な実行モードを選択します。 JoinReorderとAutoMapJoinの最適化ルールを導入し、Volcanoモデルベースのオプティマイザーは検索幅を最大化して最適なプランを取得します。 ルールのホワイトリスト(使用する最適化ルール)とブラックリスト(閉じる最適化ルール)を設定できます。 オプティマイザーは PredicatePushDown 最適化を提供します。その主な目的は、述語フィルタリングをできるだけ早く実行して、後続の操作のデータ量を削減し、パフォーマンスを向上させることです。ただし、次の点に留意する必要があります。
マップ側でデータを読み取る場合、読み取られたデータのファイル サイズが不均一に分散されているため、一部の MapInstances は大量のデータを読み取って処理しますが、一部の MapInstances はほとんどデータを処理せず、マップ側にロング テールが発生します。 特に上流テーブルファイルのサイズが不均一で、小さなファイルが多く存在するため、現在のテーブルマップエンドで読み取られるデータの分布が不均一になり、ロングテールが発生します。これに対処するには 2 つの方法があります。
マップ側のロングテールの根本的な原因は、読み取りファイル ブロックのデータ分散が不均一であることと、UDF 関数のパフォーマンス、結合、集計操作などが組み合わさって、大量のデータを含むマップ インスタンスの読み取りに長い時間がかかることです。開発プロセス中にマップ側でロングテールが発生した場合は、まずマップインスタンスによって読み取られるデータ量を十分に均一にする方法を検討し、次にマップインスタンスを遅くする操作を特定し、最後にこれらの操作をマップ側で完了する必要があるかどうか、および他の段階でより適切に実行できるかどうかを検討します。 データの偏りによって発生するロングテール現象は非常に一般的であり、タスクの実行時間に重大な影響を及ぼします。特に「ダブルll」のような大規模イベント時は、ロングテールが普段以上に深刻です。例えば、大型店舗のPVは一般店舗のPVを大きく上回っています。閲覧ログデータがセラーディメンションテーブルに関連付けられると、セラーIDに従って配布されます。
Reduce 側のロングテールの主な理由は、キー データの不均一な分散です。
3コピーの圧縮ソリューション:アーカイブ圧縮方式、保存比率は約1:3から1:1.5に増加
ライフサイクル管理の基本的な目的は、最小限のストレージ コストで最大のビジネス ニーズを満たし、データの価値を最大化することです。
データ コストを、ストレージ コスト、コンピューティング コスト、スキャン コストの 3 つの部分に定義すると、処理チェーンにおけるデータの上流と下流の依存関係を適切に反映できます。
業界によってデータ品質を評価するための基準が異なります。 Alibaba は主に、完全性、正確性、一貫性、適時性の 4 つの側面からデータを評価します。 参照: データ品質管理のベストプラクティス 10 選 1. 完全性 データの整合性は、データに対する最も基本的な保証です。
2. 正確性
3. 一貫性
4. 適時性
アリババのデータ品質構築システム: アリババのデータ品質構築システム: 1. 排除シーンの認識
主に 2 つの部分でデータ ポイントをチェックします。オンライン システムとオフライン システムのデータ生成および処理の各リンクでデータ ポイントをチェックします。
リスクポイント監視: 主にデータ操作中に発生する可能性のあるデータ品質と適時性の問題を監視します。 リスクポイントは主に次の 2 つの側面で監視されます。
背景: Alibaba には巨大なデータ ウェアハウスがあり、データ サイズは EB レベルに達しています。これほど大量のデータを一般化すると、集中力の欠如や不正確さが必然的に生じます。 5 つのデータ レベルがあり、プロパティごとに重要度が徐々に低下します。
つまり、データが間違っていると、大きな資産損失、大きな利益損失、そして大きな公共リスクが発生します。
つまり、データは直接的または間接的に、グループの事業および業績の評価、重要なプラットフォームの運営と維持、外部データ製品の公開、およびアリババのウェブサイトにおけるユーザーの行動に影響を与えるために使用されます。
つまり、データは、社内の一般データ製品や運用/製品レポートに直接的または間接的に使用されます。問題が発生すると、部門や業務ラインに影響が出たり、作業効率が低下したりします。
つまり、データは主に Xiaoer による日常的なデータ分析に使用され、問題が発生しても影響はほとんどないか、まったくありません。
データの適用シナリオを明確に説明できない場合は、不明としてマークされます。
破壊性:A1レベル データが複数のアプリケーション シナリオに表示される場合は、上位の原則に従います。
解決すべき問題: 膨大な量のデータがある場合、各データにグレードのラベルを付けるにはどうすればよいでしょうか? データ資産レベルを実装するための方法/手順: データフロープロセス
データは、ビジネス システムからデータ ウェアハウス、そしてデータ製品へとテーブルの形式で提示されます。フロー プロセスを次の図に示します。 データ ウェアハウス (Alibaba では MaxCompute プラットフォーム) に同期されるデータはすべてビジネス データベースの元のテーブルであり、主にビジネス ニーズを満たすために使用され、データ製品に直接使用されることはほとんどありません。 (一般的には、ODS レイヤーの全データ量です) 使用されるデータ製品はすべて、データ ウェアハウスによって処理される出力テーブルです。 (要求/報告に応じて処理) 1. データ資産を分類する 要約: 上記の手順により、データ資産レベルが確認され、メタデータのサポートを必要とするデータごとに異なる重要度レベルが定義されます。 目的: データの正確性とオフライン データとの一貫性を確保する。
公開プラットフォーム: 大きな変更があった場合に通知を送信します。
機能: ビジネスに大きな変更が加えられた場合、サブスクリプション公開プロセスがオフライン開発者に提供され、変更の内容を通知します。 サブスクリプションコンテンツ: グループ全体の重要な高レベルのデータ資産については、データの処理に影響を与える変更を整理し、これらのコンテンツをサブスクリプションします。 チェックポイント: リリース プラットフォームには通知機能が統合されており、重要なシーンのリリースにチェックポイントを設定します。通知が確認された後にのみリリースを完了できます。
データベースの拡張であれ、ビジネス開発によるテーブル DDL の変更であれ、オフライン開発者に通知する必要があります。 DDL (データ定義言語): データベース スキーマ定義言語。データベースに保存される現実世界のエンティティを記述するために使用される言語。 DDL (データベース スキーマ定義言語) は、SQL 言語 (構造化クエリ言語) のコンポーネントです。 例: CREATE DATABASE (データベースの作成)、CREATE TABLE (テーブルの作成)。 DML (データ操作言語): データ操作言語コマンド。ユーザーはデータベースを照会し、既存のデータベース内のデータを操作できます。 たとえば、挿入、削除、更新、選択などはすべて DML です。 背景/問題: データ ウェアハウスは、データを抽出するときに DataX ツールを使用するため、特定のデータベース テーブルが制限される可能性があります。データベースが拡張または移行された場合、DataX ツールはそれを認識せず、データ抽出エラーや欠落が発生し、一連の下流アプリケーションに影響を及ぼす可能性があります。 解決策: データベース プラットフォームを通じてデータベース テーブルの変更通知を送信します。
データ資産レベルの上流と下流を接続する必要があります。このプロセスはオンライン開発者にも提供され、どれが重要なコアデータ資産で、どれが一時的に内部分析データとしてのみ使用されるかを開発者が把握できるようにする必要があります。 オンライン開発者の意識向上が必要です。トレーニングを通じて、オフライン データの要件、オフライン データの処理プロセス、データ製品の適用方法をオンライン ビジネス開発者に伝え、データの重要性を認識し、データの価値を理解できるようにします。同時に、エラーの結果も通知される必要があります。これにより、オンライン開発者はビジネス目標を達成する際にデータ目標に注意を払い、ビジネスエンドとデータエンドの間の一貫性を実現できます。
背景/質問: オンライン ビジネス システムからデータ ウェアハウス、そしてデータ製品へのデータのプロセスでは、データ ウェアハウス レベルでデータのクリーニングと処理を完了する必要があります。データ処理のために、データ ウェアハウス モデルとデータ ウェアハウス コードが構築されます。データ処理の品質を確保する方法は、オフラインデータウェアハウスのデータ品質を確保するための重要な部分です。 目的:データ処理の品質(主にデータの精度)を確保する。 チェックポイントは2つの段階でチェックされます。
背景/理由:データの研究開発担当者は異なる品質とコーディング能力を持っているため、コードの品質を効率的に保証することは困難です。 解決策:オンラインで送信されたすべてのコードをスキャンしてリスクポイントを抽出するために、コードスキャンツールであるSQLSCANを開発します。 チェック方法:コードスキャンツールSQLSCANを使用してコードをスキャンし、リスクポイントを抽出します。
オンラインデータの精度を確保するには、すべての変更をオンライン環境にリリースする前にオフラインでテストする必要があります。このリリースは、オンラインテストが通過した後にのみ成功したと見なされます。 チェックポイント方法:オンラインでリリースされる前後にタスク(変更されたビジネスを参照)をテストします。
回帰テストの目的: 注:より高い資産レベルのタスクの変更の場合、反対側で回帰テストが完了した後にのみ強力なブロッキングが使用され、リリースが許可されます。
オンライン環境とオフライン環境間の矛盾によって引き起こされる構文エラーを回避するために、コードを実行せず、実行計画のみを実行します。
実際のデータでテストします。
通知コンテンツ:理由の変更、ロジックの変更、テストレポートの変更、変更時間など。 リスクポイントモニタリング:主に、データの日々の操作で発生する可能性のあるリスクを監視し、アラームメカニズムを設定することを指します。 目的:データの正確性を確保する。 1。オンラインデータリスクポイント監視
アラームの構成:異なるルールに対して異なるアラームフォームを構成します。 注:BCPの構成と操作コストが高いため、主にデータ資産レベルに基づいて監視されます。
オフラインデータのリスクポイント監視には、主にデータの精度とデータ出力の適時性の監視が含まれます。
データの精度はデータ品質の鍵であるため、データの精度がデータ品質の最優先事項になり、すべてのオフラインシステム処理の最初の保証因子です。 方法:データの精度はDQCを介して監視されました。 DQC(データ品質センター):データの品質に焦点を当て、データの品質検証ルールを構成することにより、データ処理タスク中にデータの品質を自動的に監視します。 注:データの品質を監視し、アラームを発行しても、データ出力自体を処理しないため、アラームの受信者はそれを処理する方法を判断して決定する必要があります。 監視方法:データ品質検査ルールを構成することにより、データ処理タスク中に自動監視が実行されます。 監視ルール: 強力なルール:タスクの実行をブロックします。 タスクを失敗した状態に設定すると、その下流のタスクは実行されません。 弱いルール:タスクの実行をブロックしないでください。 一般的なDQCモニタリングルール:主キーモニタリング、テーブルデータのボリュームと変動監視、重要なフィールドの非ヌル監視、重要な列挙フィールドの個別の価値監視、インジケータ値の変動監視、ビジネスルール監視など。 ルール構成:データアセットレベルに基づいて監視ルールを決定します。 DQC Checkは実際にSQLタスクを実行しますが、このタスクはメインタスクにネストされています。チェックポイントが多すぎると、全体的なパフォーマンスが影響を受けます。したがって、ルールの構成は依然としてデータ資産レベルに依存します。 注:さまざまなビジネスにはビジネスルールが適用されます。これらのルールは、データ製品または消費者のビジネスニーズから派生しています。それらは消費者ノードで構成され、その後、ルールの影響を最小限に抑えるために監視するためにオフラインシステムの開始点にプッシュされます。
データの正確性を確保することに基づいて、データがタイムリーにサービスを提供できるようにすることが必要です。それ以外の場合、データの値は大幅に削減されます。 アリババのオフラインタスクのほとんど: 時間間隔は通常1日で、「毎日のタスク」と呼ばれます。毎日のタスクの場合、データ製品またはデータ決定レポートは、通常、毎日9:00またはさらに早く作成する必要があります。 前日のデータの完全性を確保するために、毎日のタスクは真夜中から実行され始めます。コンピューティングおよび処理タスクはすべて夜間実行されるため、毎日のデータを時間通りに生成できるようにするために、一連のアラームと優先度の設定が必要であるため、重要なタスクが優先され、正しく生成されます。 重要なタスク:資産レベルが高いビジネス。
マップタスクとタスクの削減の場合、スケジューリングはツリー構造(再ノードツリー)です。リーフノード(Relnodeノード)の優先度が構成されている場合、この優先度はすべての上流ノードに渡されるため、優先度設定はリーフノードに与えられ、リーフノードは多くの場合、ビジネスにサービスを提供する消費ノードです。 優先順位を設定する:最初に、ビジネスの資産レベルを決定します。高レベルのサービスに対応する消費ノードは自然に優先順位に割り当てられますが、一般的なサービスは低優先度に対応して、高レベルのサービスが時間通りに出力されるようにします。
タスクアラームは優先度に似ており、葉のノードにも渡されます。 操作中にタスクがエラーを発生させることは避けられません。したがって、タスクを効率的かつスムーズに実行できるようにするために、監視およびアラームシステムがあります。優先度の高いタスクの場合、タスクにエラーがあることがわかった場合、または出力の遅延がある可能性がある場合は、タスクとビジネスオーナーに呼び出されなければなりません。 Mossad:Alibabaによって独立して開発された監視および警報システム。
Mossad:オフラインタスクの監視およびアラームシステム。これは、データの操作とメンテナンスのための不可欠な保証ツールです。 オフラインタスクの操作に基づいて、アラートする、いつ警告する、どのように警告するか、どのように警告するか、誰が警告するかなどを決定するかどうかを決定します。 2つの主な機能:強力な保護監視とカスタムアラーム。 強力な保護監視 強力なセキュリティ監視は、Mossadのコア機能です。運用とメンテナンスの目標、つまりビジネスセキュリティを中心に設計されています。ビジネス警告時間が脅かされている限り、モサドは間違いなく関連する人員に警告します。 強力なセキュリティ監視には主に含まれています。 監視範囲:ビジネスを強く保証するタスクを設定し、すべての上流のタスクが監視されます。 監視の例外:タスクエラー、タスクの減速、および早期警告ビジネスの遅延。 アラームオブジェクト:デフォルトはタスク所有者であり、特定の人にデューティテーブルを設定することもできます。 いつ警告するか:ビジネスが設定した早期警告時間に基づいていつ警告するかを決定する。 ビジネス遅延警告とエラーアラームはすべて、「出力警告時間」に基づいて判断されます。 出力警告時間:Mossadは、出力警告時間として実行するために、過去7日間のすべてのタスクの平均時間に基づいて、現在のビジネスに費やされたおおよその時間を計算します。 アラーム方法:ビジネスの重要な緊急性に基づいて、電話、テキストメッセージ、Wangwang、および電子メールアラートをサポートします。 例:ビジネスコンサルタントビジネス(早期警告ビジネスの遅延) 資産レベルと要件:定義された資産レベルはA2であり、出力データは午前9時に棚に与えられる必要があります。 設定:ビジネスコンサルタントビジネスの強力な保証監視を定義します。ビジネスの出力時間は9:00で、ビジネス警告時間は7:00です。 ここでの警告時間は、Mossadが現在のビジネスの出力時間が警告時間を超えることを監視することを意味します。 たとえば、Mossadは、ビジネスコンサルタントの出力時間が7:30に達し、電話アラームが発生し、勤務中の職員が出力を加速する方法を判断すると推測します。出力時間計算(早期警告判断、つまり出力遅延判断):モサドは、過去7日間の現在のビジネスのすべてのタスクの平均時間に基づいて計算されます。誤判断の可能性はありますが、全体的には非常に正確であり、受け入れられます。
カスタム監視は、Mossadの比較的軽量監視機能です。ユーザーは、主に以下を含める必要に応じて構成できます。
ビジネスの運営を考慮して、モサドは1日の重要なパス、つまりビジネスを完了するための最も遅いタスクのリンクマップを提供します。各ビジネスには何千ものタスクがある可能性があるため、この重要なパスはビジネスリンクの最適化にとって非常に重要です。 データウェアハウスのデータ品質を確保するための多くのソリューションがあります。これらのソリューションの利点と短所を評価するには、一連の測定指標が必要です。
一般に、データウェアハウスの操作タスクは夜間に実行されます。問題が発生したら、勤務中のスタッフは夜に起きて対処する必要があります。 開始された夜の数:データ品質構造の完全性を測定するためのインジケーターとして毎月開始された夜数を使用します。
データ品質イベント:すべてのデータ品質の問題を記録します。 データ品質の問題ごとに、データ品質イベントが記録されます。 関数:データ自体の品質、およびデータリンクの上流と下流の品質を測定するために使用され、データの品質の重要なメトリックです。
深刻なデータ品質イベントの場合、障害にエスカレートされます。 失敗:問題によって引き起こされる深刻な影響を指し、それが資産の損失または広報のリスクを会社にもたらしました。 背景:コレクションから最終的なデータの消費まで、リンク全体が多数のシステムを通過する必要があります。リンクに問題がある場合、データの出力に影響します。したがって、チームを結び付け、同じ目標を持ち、共同力を形成するためにはメカニズムが必要です。この文脈で断層システムが現れました。 障害システムでは、障害が発生すると、障害システムが渡され、関連するチームは、影響を排除するためにできるだけ早く問題をフォローアップして解決する必要があります。
まず、重要なビジネスデータを特定し、システムに登録し、担当者、担当者、ビジネスパーソン、データアプリケーションシナリオ、遅延またはエラーの影響、資産の損失が発生するかどうかなど、関連するビジネス状況を記入します。完了後、このデータのタスクはプラットフォームベースラインに配置されます。遅延またはエラーが遅れたら、障害チケットが自動的に生成され、障害が発生します。
障害が発生した後、障害レベルは、障害の期間、顧客の苦情、資本損失などの特定の基準に基づいて判断され、障害はP1〜P4に従って等級付けされます。各チームには障害スコアの概念があり、今年の運用とメンテナンス効果は、年末の障害スコアに基づいて判断されます。
障害が発生した後、障害の原因をすばやく特定し、それを迅速に解決して影響を排除する必要があります。 障害を処理する過程で、関連当事者は、ビジネスへの影響を最小限に抑えるために、障害の進捗状況を通知しようとします。
障害のレビュー:つまり、障害の原因を分析し、処理プロセスを確認し、後続の解決のためのアクションを形成し、障害の責任を割り当てるためにテキスト形式で詳細に記録され、一般に責任はその人に起因します。 注:障害責任の決定は、個人を罰することではなく、問題が再び起こらないように障害のレビューを通じて解決策を形成することです。 |
<<: データ運用業務(入札者募集!!! 公共データ運用基準策定!)
>>: データ運用レポート(「易財金融年間運用データレポート」の徹底分析)
情報流通広告に5,000元を費やしましたが、1通も届きませんでした。なぜかわかりますか?最近、Ju...
電子商取引の運営について簡単に紹介1. 電子商取引業界の特徴と動向の変化1) カテゴリやSKUが多く...
2020年の中国のオンライン小売業の発展分析:年間オンライン小売業の売上高は11.8兆元に達したオ...
多くの国内販売業者は、越境電子商取引に Amazon プラットフォームを選択します。販売者アカウント...
数日間連続で上昇した後、12月18日に中百集団は取引中に日足制限値に達し、12月19日には株価が再び...
データ分析はどのように行うのですか?文:水水水出典:データの自由を追求する杜氏私は58に2年間在籍し...
ネットワーク全体でブランドプロモーションを行うにはどうすればいいですか?インターネットを通じてトラフ...
世間の報道によると、数百人の女性キャスターが関与していたとのこと…淄博市警察は41人を逮捕した! ...
美容マーケティングエコシステムを刷新し、Douyinが初めて美容業界マーケティングソリューションをリ...
WodPess 5.8 の公式バージョンはしばらく前にリリースされており、ほとんどのユーザーは新しい...
2024年のトップ10ワードローブブランド:ソフィア第9位、OPPEIN第5位、QIMEI Hom...
世界のトップ6の広告・コミュニケーショングループの収益ランキング(2023年上半期):広告市場はゆっ...
2024年第1四半期から第3四半期にかけて、燕京公酒(603198.SH)は売上高55.13億元を達...
IOZoom は、Windows/Linux VPS、マネージド クラウド VPS、WodPess ...
VR業界は冷え込みつつある?広東省で作られたVR製品は世界中で人気がある新しい工業団地の完成に伴い...