Bステーションビッグデータ開発・ガバナンスプラットフォームの製品設計経験 はじめにBilibili はデータ駆動型の企業であり、データは従業員の日常業務において非常に重要です。 Bilibiliの従業員の60%は日常的にデータの使用とデータの意思決定に関与しており、データプラットフォームの構築は彼らの仕事の効率に直接影響を及ぼします。この記事では、Bステーションのビッグデータ開発およびガバナンスプラットフォーム製品の設計経験を紹介します。主な内容は以下の部分から構成されます。 主な内容は以下の部分から構成されます。 1. Bステーションのデータ利用シナリオとデータ開発・ガバナンスプラットフォームの概要 2.価値体系に基づくデータマップ製品構築 3.抽象構成に基づくデータガバナンス製品の構築 4.コア業務と今後の計画 シェアゲスト|ビリビリ シニアプロダクトマネージャー 楊 睿紅
Bilibiliのデータ利用シナリオとデータ開発・ガバナンスプラットフォームの概要 Bステーションのビッグデータ開発およびガバナンスプラットフォームの構築には5年かかりました。現在、データ統合、データ開発、データガバナンス、データセキュリティ、データ分析などの複数のモジュールが含まれており、企業のさまざまなビジネス部門にサービスを提供しています。 Bilibili のデータ プラットフォームのユーザーは従業員の 60% を占め、ユーザー グループは主に技術開発者、製品、運用、アルゴリズム エンジニア、アナリスト、データ開発者などです。ユーザーのデータ能力を階層化することで、データ プラットフォームのユーザーを上級開発者、中級ユーザー、データ初心者の 3 つのユーザー グループに大まかに分類できます。ユーザーのセグメンテーションに基づいて、データ プラットフォームの製品ポジショニングとして、プロフェッショナル、しきい値、標準化、クローズド ループを提案しました。- プロフェッショナル:データ プラットフォームは、専門的なデータ開発および分析の要件を満たし、データ供給の効率を向上させる必要があります。
- しきい値:データ プラットフォームは、データの構築、使用、取得に関して、生産や輸送のユーザーなどのユーザーの低いしきい値要件を満たす必要があります。
- 標準化:データ プラットフォームは、複数のビジネスや部門のさまざまなデータ要求に迅速に対応する必要があります。また、その機能は汎用性と柔軟性の両方を備えている必要があります。
- クローズドループ:データ プラットフォームは、Bilibili のデータ ミドル プラットフォームでもあります。また、データ運用、コスト管理、規制制約、品質監視などの管理役割も担います。したがって、プラットフォームは、ビジネスのために、倉庫保管、生産、運用、保守からガバナンスに至るまで、データ プロセスの完全なクローズド ループを完了する必要があります。
さまざまなビジネス シナリオとデータ使用の需要に応じて、プラットフォームには主にデータ生成、データ消費、データ管理の 3 つのシナリオが含まれており、それぞれ対応するデータ サービスを提供します。この記事では、データ マップとデータ ガバナンス製品の設計に焦点を当てます。価値体系に基づくデータマップ製品構築 1. データ操作の問題点 モデル ベースが大きい場合、複数のビジネス データ センター チームやデータ ウェアハウス チームは、困難なデータ操作という問題点に直面することがよくあります。データ操作製品の中心的な目標は、データ コンテンツの構築と組み合わせたデータ プラットフォームを通じて、データの検索と使用に関するユーザーの悩みを解決することです。モデル規模の急速な拡大に伴い、2020 年以降、データ操作の難しさという問題点に徐々に直面してきました。データ操作の問題点は次の段階に現れています。 2. データ操作ソリューション 上記の問題点を解決するために、製品機能システムの改善、データ運用システムの構築促進、データモデルの評価機能の構築という一連のソリューションを提案しました。 3. データマップ製品の構築 データ マップは、ユーザーがデータ リソースをより適切に理解し、管理するのに役立つメタデータ ベースのデータ ポータルです。企業のデータセンターとして、データ マップには、データの取得、メタデータの詳細、データのプレビュー、データ リネージ、データ管理など、複数の機能があります。これらの機能の存在により、ユーザーのデータ検索効率が効果的に向上し、データ理解の難易度が軽減され、使用の敷居が下がります。インサイト推奨、全文検索、カテゴリ システム、データ ポートレート、UGC と API、データ アルバム、データ リネージ、影響分析を含む 8 つの主要な製品マトリックスを改善することで、データの検索、データの使用、データの理解、データ ガバナンス、データ プロモーションなど、さまざまなシナリオでユーザーのニーズを満たすことができます。 4. データ操作方法 データマップ製品システムの反復に基づいて、いくつかのデータ操作方法が蓄積されてきました。オンラインおよびオフラインの 1 対 1 ソリューションを使用して質問に答え、疑問を解決し、ツールを使用してデータ ウェアハウス関連の問題を相談または解決します。データの内容に基づいて、運用担当者向けに定期的なオフライン トレーニング、インタビュー、ツールの普及を実施します。すべての問題と解決策を記録し、プラットフォームを通じて蓄積し、体系的にビジネス側にフィードバックします。ビリビリは、点・線・面の運用方法とオンライン・オフラインの運用戦略を組み合わせて、データ運用計画を策定しました。同時に、データ価値、ユーザー指標、ユーザーインタビュー、定期調査の4つの評価システムに基づいて、より効果的に戦略を実行し、効率を向上させることができます。 5. データの価値を評価する 製品機能の反復と操作の体系的な構築を経て、ユーザーがデータを見つけ、使用できるようにガイドできるようになりました。しかし、多くのデータ モデルでは、依然としてビジネス部門に「モデルが適切に構築されている」と認識させることができないことがわかりました。データの価値をより適切に測定するために、モデルのROI評価を実施し、健全なモデル運用とデータ構築を推進し、モデル価値評価システムを構築します。データの価値を測定することで、ビジネスのデータ認識を効果的に向上させることができます。これに基づいて、データ推奨戦略、データ開発価値評価、モデル管理戦略、ガバナンス戦略を構築できます。 6. データ値の計算 データ値に基づいて、モデル値スコアが設計されました。データ アプリケーション シナリオには、主に、データ クエリの人気、ETL 参照、API 参照、BI レポートの人気、データ アプリケーションの使用状況、ウェアハウス ビジネス シナリオの人気が含まれます。価値要素には、主に内部の労働効率、外部のベースライン レベル、外部のデータ品質、セキュリティ レベル、データの鮮度などの側面が含まれます。さまざまなシナリオや要因に応じてコンポーネントの重みが設定され、製品化されたソリューションを通じて、複数のビジネスのカスタマイズされたデータ価値がより効果的にサポートされます。 7. データマップ効果表示 以下は、特定のシナリオにおける製品機能のデモンストレーションです。メタデータ表示、タグ表示、ユーザーインサイト、データアルバム機能などの機能を含みます。テーブル詳細ページの機能を中心に、基本情報、ビジネス情報、ストレージ情報、タグなど豊富なアプリケーション機能を提供します。血統データに基づいて、血統マップと帰属/影響分析という 2 つの製品が開発されました。系統マップは、手動探索、視覚分析、リンク分析の機能を提供します。帰属/影響分析機能は、主に下流のデータ変更の問題と、口径変更によるベースラインへの影響を迅速に特定するために、系統に基づいた上方および下方のデータ集約分析の機能を提供します。バッチ系統クエリ、情報集約、グループ化、通知機能を提供します。製品機能、データ運用システム、データ価値評価の構築により、データ運用が大幅に改善されました。反復を経て、データ マップの浸透率は 30% から 60% に増加しました。推奨テーブルの人気は 40% 増加し、ユーザーレビューは 33% 増加しました。同時に、データの価値がビジネスに認識され、トップバリューポイントの人気が20%増加しました。ユーザーは適切な数値を見つけて対数を使用することができます。データ構築の価値を測定および評価できます。抽象構成に基づくデータガバナンス製品の構築 ステーション B では、テーブルとタスクが 6 か月ごとに 2 倍に増えています。 2022年以降、データガバナンスをより効率的に推進し、実装する必要があることに気づきました。そこで、データガバナンスの問題を効率的に解決するために、Bサイドの製品化という考え方で、データガバナンスソリューションに汎用的なガバナンスツールを提供することを提案しました。 1. 建設の背景と製品アーキテクチャ 急速なビジネス発展の時期には、データ資産が急速に増加し、資産管理が混乱し、データ ガバナンス作業が緊急になることがよくあります。通常、データ ガバナンスには次のような問題点があります。- データガバナンスは開始と実装が難しく、運用とプロセスのガイドも難しい
- 誰も統治されておらず、責任も明確に定義されていません。
ガバナンスは、データコスト、データ標準化、データ品質、データセキュリティという 4 つの主要な側面から実行する必要があります。ガバナンス センターの製品フレームワークは、主に管理操作、ガバナンス構成とアプリケーション、基本データ モジュールで構成されています。メタデータを基本データとして柔軟な構成にすることでガバナンス効果が向上します。 2. データガバナンスの運用メカニズムとワークフロー データ委員会、ガバナンスツール、運用メカニズムを組み合わせることで、持続可能で実行可能なガバナンスと運用のプロセスのセットが徐々に形成されてきました。ガバナンス業務推進プロセスは、戦略オンラインPOC→データ委員会リリース→戦略オンラインという新しいプロセスを採用しており、従来のプロセスに比べて大幅に改善されています。 3. ステーションBのガバナンスと運営を推進する上での問題点と要望 Bilibili では、データ ガバナンス運用の問題点が主に 3 つの方向にあります。管理する資産オブジェクトが多数あること、資産運用パスが特殊であること、問題のある既存資産が多く、成長が速いことです。 4. ガバナンスツールソリューション 豊富な要素と構成により、ユーザーの個別化された要求を実現し、固定構成プロセス、標準化された構成パラメータ、簡素化された構成操作など、さまざまなビジネス、さまざまな視点、さまざまなユーザーによって策定されたさまざまなガバナンス戦略を解決できます。企業が独自にガバナンス計画を策定し、ルールを定義し、作業を進めることを可能にします。 5. 抽象化: 一般的な構成によるパーソナライゼーション 以下は、上記の 3 つのデータ ガバナンスの問題に対応するユニバーサル構成の製品機能です。アセットは統合されたメタデータ オブジェクトに抽象化されます。各ガバナンス オブジェクトには共通属性とカスタム属性があり、ガバナンス データ モデリングはメタデータを中心に実行されます。各オブジェクトのプロパティは、{jobid} などの動的パラメータを通じて取得され、グローバル変数を形成します。既存の機能とインターフェースを最大限に活用し、URL やインターフェース入力パラメータなどを設定することでガバナンスアクションを迅速に再利用して起動できるため、機能実装の効率が大幅に向上します。データ戦略の開発、ガバナンス オブジェクトの構成、操作手順の構成、動的パラメーター、コピーライティングの使用により、ToDo 質問ジェネレーターを迅速に生成できます。スケジュール設定により、ドキュメントは毎日自動的にスキャンされ、ToDo の詳細が生成され、ユーザー ガバナンスがプッシュされます。 6. 効果と利点 現在、ビリビリはガバナンスツールを通じて62の戦略を立ち上げており、各戦略の平均開発および立ち上げ時間は2〜3時間です。累計8万件以上のガバナンス課題が生成され、2万件以上のガバナンス課題が処理され、累計ガバナンス量は500万を超え、累計労働効率は100人日以上削減されました。主な仕事と今後の計画 プロセス管理を通じて、オフラインの SOP 操作がオンラインになり、現在の製品のアトミック操作の欠点を解消し、長いデータ ガバナンス プロセスや監視できない実行進行状況などのユーザーの問題を解決します。同時に、プラットフォーム上で多くの自動化されたガバナンスとプッシュ プロセスの実装をサポートし、開発効率を向上します。以上が今回のシェアの内容です、皆様ありがとうございました。 |