データ操作の理解(メタデータについて話すときに何について話しているのか)

データ操作の理解(メタデータについて話すときに何について話しているのか)

メタデータについて話すとき、何について話しているのか

メタデータは、テーブルの名前、フィールド、タイプ、および説明です。データ資産の主題はメタデータです。では、メタデータについてどれくらいご存知ですか?

製品の観点から個人的に定義すると、データ管理は主にメタデータ管理の概念に焦点を当てています。データガバナンスとの違いは何ですか?データ管理とデータガバナンスを個人がどのように区別するかについては、後ほど詳しく説明します。

同時に、ここで紹介するメタデータは主に開発プロセスのためのものです。メタデータが資産化され、データ コンシューマー向けになる場合については、後ほどデータ操作セクションでデータ マップを紹介するときに詳しく説明します。

メタデータ、データに関するデータ。この概念に初めて遭遇した場合、標準的な説明方法は混乱を招く可能性があります。野菜市場の例などの例を使用する人もいます。各料理の価格、産地、製造時期などが記載されています。

大まかに言えば、メタデータはスキーマ情報です。さらに進むと、テーブル名、フィールド、タイプ、説明があります。これは理解しやすいですが、もちろん少し大まかです。

ここでもう一歩進んでみましょう。メタデータはデータ資産にアップグレードされる場合もあります。個人的には、本体はやはりメタデータだと理解しています。メタデータに管理属性とビジネス属性が追加されると、データ資産になります。本質的には依然としてメタデータです。

?私はその不確実性を理解したことが一度もありません。それは単純なものを複雑にする能力でしょうか、それとも複雑な問題を単純化する能力でしょうか?

メタデータが概念的にどのように定義されているかに関係なく、ビッグデータ プラットフォームの製品マネージャーは、その概念を実践する必要があります。ビッグデータプラットフォーム全体の観点から、ビッグデータプラットフォームにおけるメタデータの位置づけについてお話しします。一言で言えば、ビッグデータ プラットフォーム全体はメタデータを中心に構築されています。

データ統合の最初から、統合のソース側とターゲット側でメタデータが必要になります。統合後のデータ開発プロセスにはメタデータが必要です。開発後にデータ サービスを作成する場合にもメタデータが必要です。アドホック クエリ分析にはメタデータが必要です。レポートの表示にはメタデータが必要です。メタデータは、ビッグデータ プラットフォーム内のさまざまなモジュールを連結するために使用できます。したがって、ビッグデータプラットフォームはメタデータを中心に構築されていると言えます。

簡単に言えば、メタデータはスキーマであり、メタデータは非常に重要です。では、ビッグデータ プラットフォームではどのようなデータ ソース メタデータを管理する必要があるのでしょうか?

まず、ビッグデータ プラットフォームの主な目的の 1 つはデータ ウェアハウスの構築であるため、データ ウェアハウスに対応するメタデータを管理する必要があります。データ ウェアハウスが HIVE であるか Alibaba のような Maxcomputer であるかに関係なく、ビッグ データ プラットフォーム上で統一的に管理する必要があります。アーキテクチャ内にレイクとウェアハウスの両方がある場合、レイクとウェアハウスのメタデータも統一された方法で管理する必要があります。

その他のタイプについては、ビッグデータプラットフォームの機能が拡大し続けるにつれて、サポートできる開発の種類が増え続け、徐々に他のタイプのデータソースもサポートされるようになります。 MySQL、Oracleなど。テキストやkakfaなどにも製品レベルでスキーマが与えられており、グローバルメタデータ管理という名前が付けられているものもあります。

テキスト、Kafka、スキーマ構造を持たないその他のデータを統合的に管理することで、テーブル構造を持たないデータソースに対するインターフェース操作もサポートできるようになります。

含まれるメタデータ管理タイプが増えるほど、他のモジュールへの影響が大きくなり、プラットフォームがより複雑になります。後述するアドホック クエリの場合、管理されているすべてのメタデータをクエリできる必要がありますか?クエリを実行するときにソース間の関連付けを実行する必要がありますか?これは総合的に考慮する必要があることです。全体の流れがスムーズであれば、良いも悪いもありません。

ほとんどの場合、メタデータは基盤となるデータベースに既に存在するため、同期が必要です。同期には、オフラインとリアルタイムの 2 種類があります。

オフラインとは、定期的に最新のメタデータを取得するためのスケジュールを作成することを意味します。これにより、更新が多少遅れることになります。

リアルタイムとは、データベース上のログを監視することを意味します。変更が発生すると、プラットフォーム上のメタデータも同期的に変更されます。

しかし、どちらの方法を使用したとしても、メタデータの二重スキンの問題は避けられません。

基礎となるレイヤーと深く統合する方法、つまりメタデータが基礎となるカタログを直接読み取る方法があるようです。メタデータはプラットフォーム上に再度保存されることはありません。しかし、これはより低レベルのものであり、これが私が理解したものかどうかはわかりません。また、前述のグローバルメタデータ管理に直面した場合、どのように対処すればよいのでしょうか?これらについては高度な研究を行っていないので、さらに学ぶ必要があります。

メタデータの同期に加えて、ビッグデータ プラットフォーム上でメタデータを直接作成することもできます。作成形式には 2 種類あり、その 1 つがスクリプト形式です。 1つは魔法使いの形をしています。

スクリプト形式

直接書いてSQLを作成できるテキスト編集ボックスです。この形式はほとんどの開発者に好まれます。毎日のフォームに準拠します。ただし、この作成形式は、標準、指標、コード テーブルなどに適切にバインドすることはできません。

ウィザードフォーム

スクリプト フォームに加えて、ウィザード フォームを使用して、テーブルのようなフォームを使用してテーブルを作成することもできます。このフォームでは、テーブルを 1 行ずつ入力したり、タイプを選択したりする必要があります。この操作は非効率的であり、R&D 担当者の日常的なテーブル作成の習慣と一致しません。プロモーションを使えるかどうかですが、個人的にはある程度抵抗があると思います。

ただし、このフォームは、標準、インジケーター、コード テーブルなどに適切にバインドできます。また、このフォームだけがこの情報をテーブルにバインドできるようです。この部分については、次のセクション「データ計画は本当に実現可能か?」でさらに詳しく説明します。

データ操作編では、データ活用の第一歩である「データを探す」という操作のためのメタデータ表示について紹介します。操作プロセス中の表示形式はライブラリの制限を打ち破り、テーブル情報をより柔軟に表示できます。ただし、開発指向のメタデータ用に別のメタデータ表示インターフェイスが作成されます。このインターフェースは、ライブラリとテーブルの階層ツリーの形式になっており、操作指向のメタデータと一緒に使用できます。これも議論の余地のある点です。

上記はすべて、ライター形式のスキーマに基づいています。つまり、データを書き込むときにスキーマ情報が決定されており、日常生活でもよく使用されます。しかし、データ レイクの普及に伴い、スキーマ オン リードがますます頻繁に登場するようになっています。この形式の核となるのは、データの書き込み時にスキーマ情報が指定されず、データの読み取り時にスキーマ情報が割り当てられることです。既存の製品設計でこのタイプのスキーマに遭遇したことがないため、このタイプのスキーマを使用するシナリオについてはやや懐疑的です。連絡が取れたら後ほど更新します。

上記は、データ管理メタデータ部分についての私の個人的な理解です。

この記事はもともと @数据小隶 によって Everyone is a Product Manager に掲載されました。無断転載禁止

タイトル画像はCC0プロトコルに基づいたUnsplashからのものです

この記事で述べられている意見は著者自身の意見のみを表しており、人人士品夢家プラットフォームは情報保存スペースサービスのみを提供します。

<<:  データ運用の職務内容(【職場】Webサイト運用管理者は具体的に何をするのか)

>>:  データ運用の次元(医療管理者が医療運用について理解しなければならない 8 つのデータ認識)

推薦する

ブランド企画ランキング(陳良嘴:コンサルティング企画とインキュベーション業界の経験)

陳良嘴:コンサルティング、プランニング、インキュベーションの業界経験豊富#陈亮嘴# 著名な企業戦略コ...

Resin サーバーのインストールと構成 SSL 証明書のチュートリアル

ウェブサイトが使用する SSL 証明書は、通常、ウェブ サーバーにインストールされ、展開されます。S...

顧客操作には何が含まれますか? (高齢者介護事業の運営において、顧客管理をうまく行うには?)

高齢者介護プロジェクトの運営中に顧客管理をうまく行うにはどうすればよいでしょうか?質問1:「想定顧客...

B2B マーケティング プロモーション方法 (B2B 企業がオンライン プロモーションに選択すべきチャネルと方法)

B2B企業がオンラインプロモーションに選択すべきチャネルと方法ライブストリーミングは非常に人気があ...

電子商取引のマーケティングプロモーション(電子商取引サイトの主なプロモーション方法(よく使われる5つのプロモーション方法))

電子商取引サイトの主なプロモーション方法(よく使われる5つのプロモーション方法)電子商取引の発展はま...

SiteLock: 非常に便利なマルウェア検出ツール

SiteLock は、中小企業向けのクラウドベースの Web サイト セキュリティ ソリューションで...

販売業務管理には何が含まれますか?

セールスオペレーション管理仏陀は世界は広大で無限であると言いましたが、私はそれに深く同意します。地球...

SSL証明書のインストールと設定に関するFAQ

SSL 証明書を Web サイトにインストールすると、サーバー ID 認証とデータ暗号化送信機能を実...

人工知能企業とみなされた燕山科技は苦境から抜け出せるのか?

昨日の一日の制限に続き、燕山科技は12月19日の取引でも上昇を続けた。 11月末以来、燕山科技の株価...

Baota Panel への PHP のインストール失敗の解決策

Baota Panel は、Windows および Linux システムをサポートし、Web 経由で...

ToB 顧客獲得とインキュベーションに関する 12 の真実。

出典: ToBマーケティングアカデミー【SEM】 1.入札コストは高いですか?高い、正確な顧客の 5...

ケータリング業務の職務内容(ケータリング資材:「ケータリング課業務マニュアル」共通テンプレート)

ケータリング情報:「ケータリング課業務マニュアル」共通テンプレート第3章 職務責任と品質要件1. 職...

運用管理の意思決定には何が含まれますか(意思決定管理:定義、種類、プロセス、方法、影響要因、落とし穴、最適化)

意思決定管理: 定義、種類、プロセス、方法、影響要因、落とし穴、最適化意思決定管理はビジネス運営の...

テーブルウェアのブランド企画(キッチンウェア会社のブランド企画のやり方)

キッチン用品メーカーのブランドプランニングのやり方キッチン用品業界は、改革開放の初期から現在に至るま...