データ操作の理解(メタデータについて話すときに何について話しているのか)

データ操作の理解(メタデータについて話すときに何について話しているのか)

メタデータについて話すとき、何について話しているのか

メタデータは、テーブルの名前、フィールド、タイプ、および説明です。データ資産の主題はメタデータです。では、メタデータについてどれくらいご存知ですか?

製品の観点から個人的に定義すると、データ管理は主にメタデータ管理の概念に焦点を当てています。データガバナンスとの違いは何ですか?データ管理とデータガバナンスを個人がどのように区別するかについては、後ほど詳しく説明します。

同時に、ここで紹介するメタデータは主に開発プロセスのためのものです。メタデータが資産化され、データ コンシューマー向けになる場合については、後ほどデータ操作セクションでデータ マップを紹介するときに詳しく説明します。

メタデータ、データに関するデータ。この概念に初めて遭遇した場合、標準的な説明方法は混乱を招く可能性があります。野菜市場の例などの例を使用する人もいます。各料理の価格、産地、製造時期などが記載されています。

大まかに言えば、メタデータはスキーマ情報です。さらに進むと、テーブル名、フィールド、タイプ、説明があります。これは理解しやすいですが、もちろん少し大まかです。

ここでもう一歩進んでみましょう。メタデータはデータ資産にアップグレードされる場合もあります。個人的には、本体はやはりメタデータだと理解しています。メタデータに管理属性とビジネス属性が追加されると、データ資産になります。本質的には依然としてメタデータです。

?私はその不確実性を理解したことが一度もありません。それは単純なものを複雑にする能力でしょうか、それとも複雑な問題を単純化する能力でしょうか?

メタデータが概念的にどのように定義されているかに関係なく、ビッグデータ プラットフォームの製品マネージャーは、その概念を実践する必要があります。ビッグデータプラットフォーム全体の観点から、ビッグデータプラットフォームにおけるメタデータの位置づけについてお話しします。一言で言えば、ビッグデータ プラットフォーム全体はメタデータを中心に構築されています。

データ統合の最初から、統合のソース側とターゲット側でメタデータが必要になります。統合後のデータ開発プロセスにはメタデータが必要です。開発後にデータ サービスを作成する場合にもメタデータが必要です。アドホック クエリ分析にはメタデータが必要です。レポートの表示にはメタデータが必要です。メタデータは、ビッグデータ プラットフォーム内のさまざまなモジュールを連結するために使用できます。したがって、ビッグデータプラットフォームはメタデータを中心に構築されていると言えます。

簡単に言えば、メタデータはスキーマであり、メタデータは非常に重要です。では、ビッグデータ プラットフォームではどのようなデータ ソース メタデータを管理する必要があるのでしょうか?

まず、ビッグデータ プラットフォームの主な目的の 1 つはデータ ウェアハウスの構築であるため、データ ウェアハウスに対応するメタデータを管理する必要があります。データ ウェアハウスが HIVE であるか Alibaba のような Maxcomputer であるかに関係なく、ビッグ データ プラットフォーム上で統一的に管理する必要があります。アーキテクチャ内にレイクとウェアハウスの両方がある場合、レイクとウェアハウスのメタデータも統一された方法で管理する必要があります。

その他のタイプについては、ビッグデータプラットフォームの機能が拡大し続けるにつれて、サポートできる開発の種類が増え続け、徐々に他のタイプのデータソースもサポートされるようになります。 MySQL、Oracleなど。テキストやkakfaなどにも製品レベルでスキーマが与えられており、グローバルメタデータ管理という名前が付けられているものもあります。

テキスト、Kafka、スキーマ構造を持たないその他のデータを統合的に管理することで、テーブル構造を持たないデータソースに対するインターフェース操作もサポートできるようになります。

含まれるメタデータ管理タイプが増えるほど、他のモジュールへの影響が大きくなり、プラットフォームがより複雑になります。後述するアドホック クエリの場合、管理されているすべてのメタデータをクエリできる必要がありますか?クエリを実行するときにソース間の関連付けを実行する必要がありますか?これは総合的に考慮する必要があることです。全体の流れがスムーズであれば、良いも悪いもありません。

ほとんどの場合、メタデータは基盤となるデータベースに既に存在するため、同期が必要です。同期には、オフラインとリアルタイムの 2 種類があります。

オフラインとは、定期的に最新のメタデータを取得するためのスケジュールを作成することを意味します。これにより、更新が多少遅れることになります。

リアルタイムとは、データベース上のログを監視することを意味します。変更が発生すると、プラットフォーム上のメタデータも同期的に変更されます。

しかし、どちらの方法を使用したとしても、メタデータの二重スキンの問題は避けられません。

基礎となるレイヤーと深く統合する方法、つまりメタデータが基礎となるカタログを直接読み取る方法があるようです。メタデータはプラットフォーム上に再度保存されることはありません。しかし、これはより低レベルのものであり、これが私が理解したものかどうかはわかりません。また、前述のグローバルメタデータ管理に直面した場合、どのように対処すればよいのでしょうか?これらについては高度な研究を行っていないので、さらに学ぶ必要があります。

メタデータの同期に加えて、ビッグデータ プラットフォーム上でメタデータを直接作成することもできます。作成形式には 2 種類あり、その 1 つがスクリプト形式です。 1つは魔法使いの形をしています。

スクリプト形式

直接書いてSQLを作成できるテキスト編集ボックスです。この形式はほとんどの開発者に好まれます。毎日のフォームに準拠します。ただし、この作成形式は、標準、指標、コード テーブルなどに適切にバインドすることはできません。

ウィザードフォーム

スクリプト フォームに加えて、ウィザード フォームを使用して、テーブルのようなフォームを使用してテーブルを作成することもできます。このフォームでは、テーブルを 1 行ずつ入力したり、タイプを選択したりする必要があります。この操作は非効率的であり、R&D 担当者の日常的なテーブル作成の習慣と一致しません。プロモーションを使えるかどうかですが、個人的にはある程度抵抗があると思います。

ただし、このフォームは、標準、インジケーター、コード テーブルなどに適切にバインドできます。また、このフォームだけがこの情報をテーブルにバインドできるようです。この部分については、次のセクション「データ計画は本当に実現可能か?」でさらに詳しく説明します。

データ操作編では、データ活用の第一歩である「データを探す」という操作のためのメタデータ表示について紹介します。操作プロセス中の表示形式はライブラリの制限を打ち破り、テーブル情報をより柔軟に表示できます。ただし、開発指向のメタデータ用に別のメタデータ表示インターフェイスが作成されます。このインターフェースは、ライブラリとテーブルの階層ツリーの形式になっており、操作指向のメタデータと一緒に使用できます。これも議論の余地のある点です。

上記はすべて、ライター形式のスキーマに基づいています。つまり、データを書き込むときにスキーマ情報が決定されており、日常生活でもよく使用されます。しかし、データ レイクの普及に伴い、スキーマ オン リードがますます頻繁に登場するようになっています。この形式の核となるのは、データの書き込み時にスキーマ情報が指定されず、データの読み取り時にスキーマ情報が割り当てられることです。既存の製品設計でこのタイプのスキーマに遭遇したことがないため、このタイプのスキーマを使用するシナリオについてはやや懐疑的です。連絡が取れたら後ほど更新します。

上記は、データ管理メタデータ部分についての私の個人的な理解です。

この記事はもともと @数据小隶 によって Everyone is a Product Manager に掲載されました。無断転載禁止

タイトル画像はCC0プロトコルに基づいたUnsplashからのものです

この記事で述べられている意見は著者自身の意見のみを表しており、人人士品夢家プラットフォームは情報保存スペースサービスのみを提供します。

<<:  データ運用の職務内容(【職場】Webサイト運用管理者は具体的に何をするのか)

>>:  データ運用の次元(医療管理者が医療運用について理解しなければならない 8 つのデータ認識)

推薦する

生産管理・運営管理の基本的な内容は何ですか? (企業の経営目標達成の前提となるのが生産・運営管理)

企業の経営目標を達成するための前提は生産と運営管理である生産と運営は企業活動の基盤です。効果的な生産...

父の日ブランドマーケティング(父の日マーケティング戦争の展望、ブランドはいかにして突破し勝利できるか?)

父の日のマーケティング戦争を見据えて、ブランドはどのようにして突破し、勝利できるのでしょうか? 6月...

海外商品運営(Pinduoduo越境Temu販売者は4つの視点から店舗運営を行う必要がある)

Pinduoduo越境Temu販売者は4つの視点から店舗を運営する必要がある多くの Temu 販売...

Xshell がスイッチのコンソール ポートに接続するグラフィック チュートリアル

Xshell は、Windows 上で動作する強力で安全な端末シミュレーション ソフトウェアであり、...

イベントブランド企画(ブランド文化イベント企画の基盤はマーケティングとクリエイティビティ)

ブランド文化活動企画の基盤はマーケティングと創造性最近、あるブランドイベント企画セミナーで、「文化的...

製品マーケティングとブランドマーケティング(ブランドとマーケティングの関係)

ブランドとマーケティングの関係今日の競争の激しい市場環境において、ブランディングとマーケティングはビ...

新たなメディア運営サプライヤー(Meitu TechnologyがTikTokをコントロールし、ブランドの海外展開を支援)

MeToi Technology、TikTokを活用してブランドの海外展開を支援世界で最も人気のあ...

Windows 仮想ホスト管理パネルとは何ですか?

Windows仮想ホスト、つまりWindowsオペレーティングシステムの仮想空間は、ASP / AS...

長安ブランドマーケティング(長安汽車はアビタの革新的開発を推進し、主力モデルのOTAアップグレードを推進)

長安汽車はアビタの革新的開発を推進し、主力モデルのOTAアップグレードを推進世界の自動車産業における...

ケータリングブランドのプロモーション企画(新規ケータリングブランドのプロモーションのための5つのコミュニケーション手法)

新しいケータリングブランドを宣伝する5つの方法昨今、ケータリングブランド間の競争はますます激しくなっ...

雇用主ブランドのプロモーション(優れた雇用主ブランドを作成するには、これらのステップが不可欠です!)

優れた雇用主ブランドを構築するには、これらのステップが不可欠です。優秀な従業員は企業の成功の基盤であ...

日本酒は「古い」ですか?高級ラインか若者、どちらが勝つのか?

昨年、茅台酒と瑞幸咖啡が共同で発売したコーヒーソース風味のラテがWeChatモーメンツで話題になった...

情報フロー広告とはどのようなものですか?(情報フロー広告とは何か?そのメリットは何か?)

情報フロー広告とは?利点は何ですか?情報広告の特徴は、顧客層を的確にターゲティングでき、さまざまな形...

ウェブサイトがハッキングされたらどうすればいいですか? Baidu 検索エンジン ハッキング防止ガイド

ウェブサイトのハッキングは百度検索でよく見られる現象で、通常はウェブサイトに公開されていない類似コン...

アカウント情報フロー操作(捜狐広告アカウント開設、情報フロー広告操作サービス)

Sohu広告アカウント開設、情報フロー広告配信および運用サービスSohu Advertising ...