ビッグデータ運用保守（小米科技のビッグデータ運用保守管理システムの構築と実践）

小米科技のビッグデータ運用保守管理システムの構築と実践

著者 |劉志傑編集者 |王子宇

制作 |公開アカウント「ビッグデータへの道」

少し前に、Yunqiカンファレンスに出席し、「 Xiaomiのビッグデータ運用保守管理システムの構築と実践」について皆さんと共有する機会をいただきました。トピックは2つの部分に分かれています。最初の部分では、ビッグデータの運用と保守のデジタル変革に関連する内容について話し、運用と保守レベルを簡素化し、究極の効率を生み出す方法を見ていきます。パート 2 では、Xiaomi のビッグデータの技術的アーキテクチャを紹介し、Xiaomi が大量データの課題にどのように対処しているかを理解していただきます。

サービスの位置付け

皆様の理解を助けるために、まずは Xiaomi サービスのアーキテクチャについて簡単に説明しましょう。ビジネスアーキテクチャ全体は、クラウドコンピューティングの階層化モデルに従って、Iass 層、Pass 層、Sass 層の 3 つの層に分かれています。 Xiaomi のインフラストラクチャレイヤーは、 IDC、パブリッククラウド、ネットワーク、その他のリソースを含むハイブリッドクラウドです。 Xiaomi の SaaS 層には、携帯電話 * IOT * 自動車などの戦略的事業だけでなく、インターネットや電子商取引など数百の事業ラインも含まれます。パス層のメンバーとして、ビッグデータは下位の基本リソースに接続し、上位のビジネスのデータニーズを満たし、オフラインレポートやリアルタイムデータウェアハウスなどのさまざまなシナリオベースの機能を提供し、ビジネスがデータ資産を蓄積し、全体的なデータ効率を向上させるのに役立ちます。同時に、ビッグデータはグループのデジタル基盤であり、極めて重要な役割を果たしています。

ビッグデータサービスアーキテクチャ

Xiaomi のビッグデータサービス全体は x86 と ecs に基づいており、下から上にデータ収集層、データストレージ層、データコンピューティング層、データプラットフォーム層の 4 つの層に分かれています。

データ収集層: 主に、独自開発の LCS と Talos に代表されるメッセージキューの組み合わせを使用して実装されます。この部分については、次の共有でも詳しく説明します。
データストレージ層: ファイルストレージ HDFS、KV ストレージ HBase、オブジェクトストレージ Ceph など、さまざまなオープンソースおよび自社開発のストレージエンジン。このうち、Pegasus は Xiaomi が独自に開発し、現在は Apache でオープンソース化されています。
データコンピューティングレイヤー: Xiaomi は、Yarn を統合リソース管理プラットフォームとして使用し、一般的な MapReduce、Spark、Flink など、Yarn に基づくさまざまなバッチ処理およびストリーム処理コンピューティングエンジンを提供します。さらに、アドホッククエリと検索のニーズを満たす豊富な Olap エンジンも提供します。
データプラットフォーム層: 社内ではデータファクトリーと呼んでおり、主にワンストップのデータ開発とデータ管理機能を提供します。

Xiaomi のビッグデータ事業は急速に発展しており、国内外の複数の地域をカバーしています。現在では、1,000 を超えるクラスターと数万のノードの規模に達し、総ストレージ容量はほぼ EB に達し、1 日あたり 300,000 件のコンピューティングタスクが実行されます。

ビッグデータの運用と保守の変革の課題

このような大規模なデータ規模は、サービスの運用と保守に多くの課題をもたらします。次に、それらについて詳しくお話ししましょう。

高い運用および保守コスト: 従来の運用および保守ソリューションとサービスの急速な発展との間の摩擦が増加し、運用および保守コストのエントロピーが増加し、品質、コスト、効率に反映されます。
サービスライフサイクルのギャップ: ビッグデータサービスのシナリオは数多くあり、大きく異なるため、運用と保守の複雑さがさらに増しています。
データサイロにより最適なデータ効率の実現が困難になる
運用保守レベルは経験に基づくシングルコア方式で開発されており、多くのプロセスを実装することが困難です。

問題を特定した後、私たちは徹底的な社内議論を行い、Xiaomi が長年ハイブリッドクラウドに取り組んできたことを考慮して、ビッグデータ運用保守プラットフォームである Qingzhou の全体計画を開始しました。 Qingzhou の主な方針は、共通のベースライン機能を構築し、究極の垂直機能を作成することで、サービスのライフサイクルを徹底的に接続することです。

青州の全体的な能力構造は、2つの能力+3つのセンターです。

ベースライン機能レイヤーには、データマートとパブリッシングセンターが含まれており、運用および保守管理システム全体の基盤となります。
垂直機能レイヤーは、サービスの作成、運用から消滅まで、サービスのライフサイクル全体にわたって実行されます。運用は、サービスアップグレード、機械管理、検査管理など、私たちの日常業務の中で最も時間と労力がかかる部分です。

青州統合運用保守データマート

データアイランド問題を解決するために、私たちはデータ統合とアーキテクチャの分離というソリューションを採用しています。ビッグデータ向けの統合運用・保守データマートを構築することで、運用・保守に関わるすべてのデータが統合され、データソースとデータユーザー間の分離レイヤーが作成されます。データマート層では、運用・保守データをモデル化し階層的に処理するためのデータ仕様を開発しました。最後に、既存のデータソースに対して ETL スケジューリングが実行され、最終的に統合されたデータの保存と使用が実現されます。

新しいデータアーキテクチャは、運用と保守のデータシステムを統合し、データサイロの問題を解決するとともに、データ使用のハードルを下げます。現在、データシステム全体がすべてのビッグデータサービスに適用され、真の統一されたデータ管理を実現しています。さらに、データシナリオ全体が閉ループになり、複雑さが O(n^2) から O(n) に変わり、コアデータ分析ロジックが再利用可能になります。新しいデータアーキテクチャ全体は、以前の人中心のアプローチに代わる、データシナリオ中心になっています。

青州リリースセンター

Qingzhou の出版センターでは、スケジュールオーケストレーション + ローコードモードを使用して、ワークフローを柔軟に定義しています。同時に、テンプレートを活用してSOP を統合し、個人の経験を組織の能力に変換します。次の図は、パブリッシングセンターのワークフローテンプレートです。実行システムとカスタムスクリプトを操作プールに抽象化します。スケジューリングオーケストレーションでは、単一実行領域、ループ領域、非同期実行領域など、さまざまな論理領域が定義されます。

現在、セット全体が徐々にすべてのビッグデータサービスに拡張されており、一部のシナリオでは無人変更が実現され、効率が 30% 向上しています。リリースセンター全体は、既存の基盤に基づいて引き続き最適化および反復され、グローバルな相互接続が構築され、最終的には完全なプロセス自動化が実現されます。

オペレーションセンターでは、データとハイブリッドオペレーションの概念を組み合わせて、コラボレーション、サービスの差別化、エクスペリエンスなど、複数の主要な問題点の解決に重点を置いています。現時点では、全体的な効果はまだ良好です。例えば、機械の故障処理の全プロセスが自動化され、ビッグデータサービスの 95%をカバーし、自動処理される機械の故障の年間平均件数は 10,000 回近くに達しています。容量管理では、データの傾向を分析することで、あらゆるシナリオを網羅した容量検出を実行し、大量の手動介入を削減できます。検査管理では、リスクの定量的なスコアリングを通じて、検査基準と処理手順がさらに強化されます。

さらに、環境管理と構成管理もあります。現在、オペレーションセンター全体はまだ建設と改善の途中です。

コアデータリンク

次は第2部、ビッグデータのアーキテクチャ実践です。

Xiaomi のコアデータリンクは、メッセージキューと Talos+ アクセスダンプの組み合わせであり、エンドツーエンドのデータ接続を実現するためのデータバスとして機能します。あらゆる種類の生データは、エージェント収集方法を通じてメッセージキューに入り、バイナリログベースのストックおよび増分収集もサポートされます。ダンプレイヤーでは、データは通常、統合転送モジュールを介して他のビッグデータストレージエンジンに転送され、さらに使用されます。

現在、Xiaomi のデータの半分以上がこのソリューションを通じてアクセスされています。プロセス全体が製品化のために設計されており、ユーザーはプラットフォームに基づいてデータリンクを自由に定義できます。

リアルタイム + オフラインレイクウェアハウスアーキテクチャ

データウェアハウスの分野では、Xiaomi は Hadoop に基づくオフラインデータウェアハウス、Kappa リアルタイムデータウェアハウス、Lambda アーキテクチャデータウェアハウスのプロセスも経てきました。最新のデータウェアハウスシステムは、データレイク iceberg + flink + spark をベースに構築されたオフライン + リアルタイムデータウェアハウスです。前述のように、データは MQ を通過して最終的にデータレイクに入ります。 ETL は、Spark または Flink を介してデータウェアハウスの各レイヤー間に構築されます。

同時に、Xiaomi の OLAP エンジンは、レイク内のデータを直接クエリできるように変更されました。ソリューション全体のパフォーマンスは良好で、従来のアーキテクチャよりも複雑さが少なくなっています。データウェアハウスストレージ層の統合と ztsd 圧縮アルゴリズムのアップグレードにより、ストレージも大幅に最適化されています。

HDFS 階層化: ホットデータとコールドデータの階層化

前述のデータレイク氷山の基盤も HDFS に基づいています。ここでは、HDFS のデータアーキテクチャの実践について説明します。

一般的な業界の実装では、データ階層化を実現するために、ソリッドステートドライブ、機械式ディスク、高密度ストレージが使用されます。 Xiaomi の社内実装では、コストをさらに削減するために、コールドデータをクラウド上で直接管理する独自の HDFS Tering アーキテクチャを開発しました。

下の図は全体的なアーキテクチャ図です。バックグラウンドで HDFS コールドデータを Alibaba Cloud OSS に自動的にダンプするムーバープログラムが動作していることがわかります。次に、Namenode のメタデータが更新され、ファイル属性からブロック、オブジェクトへの変更が実装されます。同時に、ユーザーに対して透過的であり、proxydn モジュールがアーキテクチャに追加されます。

現在、ソリューション全体で 200PB を超えるコールドバックアップデータが蓄積されており、データコストが 80% 以上削減されています。

リンドルムの紹介

リンドルム入門（I）

Xiaomi の IoT 戦略をサポートし、ビジネスの膨大なデータのインデックス作成とトランザクションのニーズを解決するためです。 Xiaomi の歴史は、社内で SDS と呼んでいる HBase コプロセッサをカプセル化して実装した自社開発のストレージに基づいています。

しかし、データ規模が拡大し続けるにつれて、範囲ベースのシャーディング、フェイルオーバー時間の遅延、複数の依存リンクなど、多くのアーキテクチャ上の問題が明らかになりました。同時に、ビジネスの時系列データ要件をサポートすることはできません。さらに、SDS の開発および保守コストも非常に高くなります。

選択の結果、Alibaba Cloud の Lindorm が当社のニーズにぴったり合うことがわかりました。図に示すように、 LindormはHBaseやHadoopなどのプロトコルと互換性があり、幅広いテーブルエンジンのほか、時系列などの複数のエンジンも提供しています。

同時に、マルチレベルハイブリッドストレージやサーバーレスなどの複数の機能を組み合わせることで、多くの従来の問題を解決できます。 Xiaomi の内部テストの結果、パフォーマンスは非常に良好で、全体的なニーズを満たしています。

この図は、全体的な移行アーキテクチャを示しています。 IDC からクラウドへの 100G ネットワークリンクを開設しました。

サービスレベルでは、SDS と Lindorm の間でデータ同期リンクが事前に確立され、SDS と Lindorm の両方に最新のデータが確保されます。

ビジネス変更のコストを最小限に抑えるために、SDS プロキシコンポーネントが提供され、データを lindorm にプロキシし、最終的にビジネスの移行を実現します。

ビッグデータイベントクラウドマップ

著者について:

Xiaomi のビッグデータ運用マネージャー/SRE エキスパートである Liu Zhijie 氏は、Baidu や通信会社で勤務し、ビッグデータ、運用エンジニアリング、データベースの実践において豊富な経験を持っています。

<<: ビッグデータ企業の運営モデル（AI時代にビッグデータプラットフォームはいかにして商業的ブレークスルーを達成できるか？）

>>: 天猫店舗運営データ分析（「電子商取引運営」天猫旗艦店店舗分析概要）

どの情報フロー広告プラットフォームが優れているか（情報フロー広告プラットフォームの選び方）

ビッグデータ運用保守（小米科技のビッグデータ運用保守管理システムの構築と実践）

小米科技のビッグデータ運用保守管理システムの構築と実践

どの情報フロー広告プラットフォームが優れているか（情報フロー広告プラットフォームの選び方）

ブランドネットワークマーケティングプラン（不動産ブランドネットワークプロモーションプラン）

いくつかの簡単なWordPressバックアップ方法

ブランド統合マーケティング_ブランドマーケティング（ブランド統合マーケティング、企業のエンパワーメントと市場競争力の強化）

業務におけるデータ分析の方法（データ分析思考は業務に必須ですが、あなたはまだデータ分析ができないと断言できますか？）

延安ビッグデータ運営会社（延安ビッグデータ産業パークは「クラウド上の延安」新区に定着し、ビッグデータ新都市を創造する）

コード署名証明書の費用はいくらですか?安価なコード署名証明書の推奨

融資促進方法（中国郵政貯蓄銀行深圳支店が初のテイクオフ融資を開始し、伝統産業に新たな生産性の翼を与える）

コンビニエンスストアの販促企画プラン（スーパーマーケットの販促手法とは（この内容をご存知ですか））

運用計画には何が含まれますか? (運用計画はどのように作成しますか? 運用計画の作成方法をご覧ください)

推薦する

単一ドメイン名証明書とワイルドカード証明書の違いは何ですか?

KTVマーケティングスキル（KTVを早く集客するには？KTVを満員にする3つの戦略）

業務戦略の意思決定内容（業務戦略が企業の競争力を築く）

Nginx 502 Bad Gateway エラーの原因と解決策

プライベートドメイントラフィックコミュニティマーケティング（プライベートドメイントラフィックプール構築：コミュニティ運営とコンテンツマーケティングの黄金律）

.bzドメイン名登録要件 bzドメイン名登録価格推奨

Androidブランド売上ランキングリスト（Honorが2023年に国内Androidスマホ出荷台数1位になるために何を頼りにしているのか？）

製品運用の主な業務内容（その４：製品と運用がうまくいっているはずなのに、運用はどうしたらいいのか？）

31の製薬ビジネスコンセプト銘柄はすべてプラスで、SPD市場は大きな可能性を秘めている

ブランドプランニングにはどのような側面が含まれますか（企業ブランドマーケティングプランニングの核心は何ですか？これらの12の要素を知っておく必要があります！）

Ubuntu システムのインストールエラーの原因と解決策

情報フロー情報フロー広告（情報フロー広告のすべての概念を 1 つの記事で理解します）

伝統的な対外貿易促進方法（「六角戦士」はもはや商品を売るだけでは満足しない。杭州は越境ECブランドの海外進出をどのように促進しているのか？｜都市越境EC変革事例集③）

Namecheap チュートリアル: セカンダリドメインを作成する方法

WordPress ウェブサイトのタイトルセパレーター - &#8211 にエスケープされた場合の解決方法