メタデータ管理ソリューション (25 のメタデータ管理ソリューションを紹介する 10,000 語 (ビデオを含む、コレクションに推奨))

メタデータ管理ソリューション (25 のメタデータ管理ソリューションを紹介する 10,000 語 (ビデオを含む、コレクションに推奨))

25 のメタデータ管理ソリューションを紹介する 1 万語 (ビデオ、推奨コレクションを含む)

メタデータの定義: データを記述するデータ、データに関する記述情報、および情報リソース。メタデータは単なるデータに関するデータではなく、情報に豊かなアイデンティティを与えるコンテキストでもあると私は信じています。

写真を例にとると、写真自体も一種のデータなので、写真の名前、属性、サイズ、生成に使用したデバイス、生成時刻、作成者などの情報がメタデータになります。

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

メタデータの種類は、次の 3 つのカテゴリに分類できます。

ビジネス用語、情報分類、指標、統計的特性など、データ システム内のビジネス ドメイン関連の概念、関係、ルールを記述するデータ。

たとえば、空港基本情報データの場合、その識別情報、データ品質と精度情報、空間参照情報、リリースと更新情報、責任部門と連絡先情報などはすべて、空港の基本データ(空港コード、座標など)を記述するビジネスメタデータを構成します。

ビジネス メタデータは、論理メタデータと物理メタデータに大別することもできます。

論理構造 (テーブルなど) に関するビジネス メタデータは論理メタデータと見なされます。メタデータを使用してデータを分類し、ETL 処理を標準化します。テーブル所有者は、ビジネス メタデータ内のテーブルに関する監査情報を提供できます。また、テーブルへの書き込み時に列のデフォルト値や検証ルールを提供することもできます。

テーブルまたはパーティションに格納されている実際のデータに関するメタデータは、物理メタデータと見なされます。

ETL プロセスでは、ジョブの完了時にデータに関するメトリックを保存し、後で検証に使用します。同じメトリックを使用して、データのコストとスペースを分析できます。 2 つのテーブルが同じ場所を指す場合 (Hive の場合など)、2 つのテーブルは同じ物理メタデータを持つことができても論理メタデータが異なる場合があるため、論理メタデータと物理メタデータを区別することが重要です。

物理モデルのテーブルとフィールド、ETL ルール、統合関係など、データ システム内の技術分野に関連する概念、関係、ルールを記述するデータ。

たとえば、画像データの場合、その基本的なデジタル オブジェクト (オブジェクト識別子、ファイル サイズ、バイト シーケンス、圧縮カテゴリなど)、基本的な画像情報、画像キャプチャ メタデータ、画像評価メタデータ (空間測定、画像カラー エンコーディングなど) などが、データを記述する技術メタデータを構成します。

運用メタデータ: システム実行ログ、アクセス記録など、データ処理ログや運用状況を記述したデータ。

著者は、メタデータは企業がデータをより適切に維持・管理し、データ資産を蓄積し、データ エコシステム全体をつなぐ役割を果たすのに役立つと考えています。ユーザーは、完全なコンテキスト データ情報を迅速かつ正確に取得し、データを完全に理解して信頼できるようになります。チームにとっては、コラボレーションの効率が向上し、作業の重複が削減されます。企業にとっては、データの価値を最大限に活用し、正しい実行決定を下すことができます。

メタデータを管理する際には、メタデータ標準、管理仕様、管理プラットフォーム、制御メカニズムを策定する必要があります。

メタデータの適用は、メタデータ管理(メタデータの生成、収集、登録、保守)の全プロセスを通じて実現されます。

ほとんどの企業でよくある状況として、データ環境をナビゲートするのが難しいため、ユーザーは適切なデータがどこにあるかを他のユーザーに尋ねなければならないことがよくあります。さらに、メタデータとコンテキストが不足しているため、データを信頼することが困難になります。この信頼の欠如により、従業員は誤って古くなった情報や不正確な情報を使用するのではないかと恐れ、自分の知識範囲外のリソースを使用できなくなります。したがって、このような問題を解決するにはメタデータ管理が重要です。メタデータ管理ソリューションは、おおまかに次の 4 つのカテゴリに分けられます。

1. 初期の伝統的な解決策

2. SaaS/社内ソリューション

3. オープンソースソリューション

4. レイクディスカバリー

サポート機能:

1. データカタログ

これは実際には、企業がシステム内のデータをインベントリ化して整理するために使用するメタデータ管理ツールです。一般的な利点としては、データの検出、ガバナンス、アクセスの改善などが挙げられます。

2. データコンテキスト: 完全なデータ情報を取得する

組織全体の専門家にビジネスコンテキストを盛り込んだデータの強化を許可することで、データを実用的なものにします。サンプルクエリ、主要なメトリックの定義、データ イベントのタグ付けなどが含まれます。ユーザーの自然なワークフローに統合することで、カタログが古くなることはありません。

3. データディスカバリー: 必要なデータを素早く取得

直感的でコンテキストが豊富な検出エクスペリエンスにより、データへの信頼を構築し、データ取得までの時間を短縮します。各データ資産について、誰がそれを利用しているか、どのようなクエリを使用しているか、指標がどのように定義されているか、問題があるかどうかなど、ユーザーの自然な行動を通じて明らかになったことを調べます。

4. データの洞察

データがどのように活用されているかを把握することで、データ チームの時間とコストの使い方を最適化します。十分に活用されていないデータセット、ダッシュボード、ワークロードから、より価値の高いデータ資産への投資をシフトする

アドレス: https://metaphor.io/

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

機能: ワンストップメタデータ管理ソリューション

2.2.1.シンプル検索や詳細検索を使用して、特定のテーブルやダッシュボードなどを表示できます。

2.2.2.最も一般的なデータタグを素早く表示できます

2.2.3.システムは、よく使用される熱分析などの一般的なデータを推奨します。

2.2.4.検索結果から特定の情報を表示する

テーブルやデータセットの説明情報、責任者、最終更新時刻、所属ラベル、データ範囲、最新のクエリ担当者、問題フィードバック通信、対象データに関する一連の最近の動作、上流と下流の系統を表示する機能などがあります。

2.2.5.検索対象データタスクの上流と下流の関係情報を表示します

2.2.6.データセットに含まれる列やダッシュボードも確認できます(ダッシュボードの特定の情報や共同作業者に関連する情報を確認できます)

アドレス: https://www.stemma.ai/

Acryl Data は、 LinkedIn のメタデータ ツール DataHub を商品化するメタデータ管理サービス プロバイダーです。

ビジョン: 次世代のマルチクラウドメタデータ管理プラットフォームでデータの透明性を向上

機能: データ検出、データ品質、連邦ガバナンスのためのワンストップ データ コラボレーション プラットフォーム。データセット、ストリーム、モデル、ダッシュボード全体でデータ エコシステム全体を体験できるため、データが明確になります。

1. マルチクラウドデータエコシステム全体を簡単に統合および検索し、隠れた洞察を迅速に明らかにし、データ製品を構築します。

2. 自動かつ即時のトリガー戦略に基づいて高品質のデータを確保する

3. 分析を安全かつ再利用可能にする、API ファーストのスケーラブルなメタデータ プラットフォーム。

アドレス: https://www.acryl.io/

ビジョン: データの検出が簡単になります。

特徴:

1. データを整理して管理する: データにタグを付けてドキュメントを追加することで、誰もが正しいデータセットを見つけられるようになります。

2. 列の変更をタイムリーに監視: Starは列レベルのデータ系統を自動的に検出して表示し、その出所を信頼できます。

3. データの使用状況を把握する: データの目的やホットデータかどうかを知るために担当者を探す必要はありません。

4. データセキュリティとガバナンスの維持: Starは、データセキュリティを確保するために、AICPA SOC 2のセキュリティ、機密性、可用性に基づいてデータを標準化します。

アドレス: https://selectstar.com/

ビジョン: データをすばやく検索、特定、修復して、コラボレーションの効率を向上させます。

ポジショニング: Secoda は、ユーザーが使用する他のツールと連携して、すべてのデータ知識を管理および検索するための単一のツールです。

関数:

1. データカタログ

2. データ分析: データ分析

3. データ辞書: データ辞書

4. データ要求: データ要求の使用

特徴:

1. すべてのデータ ソースを 1 つのボタンで統合し、数秒でアクセスして検索できます。

2. テーブル、フィールド、インジケーターなどのメタデータを自動的に管理および記録します。

3. ナレッジベースを蓄積するために、Secoda はユーザーが作成したクエリ、ダッシュボード、その他の操作を記録します。

4. 共同共有: クエリ、分析、メタデータ、インジケーターなどのデータ リソースは、権限制御に基づいて共有および共同作業できます。

5. チームは、JIRA、Slack、Google フォーム間を行き来する代わりに、Secoda を使用してデータ要求プロセス全体を管理できます。同じ質問に繰り返し答えるのは避ける

アドレス: https://www.secoda.co/

機能: データガバナンスを実現する最良の方法

1. ビジネスデータを理解し、共通の定義を共有する。つまり、チームメンバーは共同でビジネス用語の語彙を定義する知識ベースを維持します。

2. 統合エンタープライズデータディクショナリ: 関心のあるデータとそれに付随するすべての属性をすばやく見つけ、カスタム属性に基づいて特定のニーズに応じてデータディレクトリを調整します。

3. データ系統、データ パスの追跡: 所有者は、複雑な情報システムからのパスをすばやく見つけて追跡したり、データを分析したり、変更の影響の系統視覚化を使用してデータの追跡可能性と監査可能性を実現したりできます。これは、技術的リスクだけでなく、ビジネス リスクとコンプライアンス リスクを制御するために重要です。


住所:
https://www.datagalaxy.com/en-gb/home/

機能: データ資産を発見、理解、使用する

1. 発見: 何千ものテーブル、列、ダッシュボード、KPI を参照するための迅速かつ直感的な検索。

2. 理解: ユーザーがデータを理解できるようにします。 Castor は、人気度、使用統計、および系図を自動的に表示します。

3. 監査: チームメンバーが書いたSQLクエリを記録できる

4. ドキュメント: Castor の Magic Paste 機能を使用してドキュメントを共有します。管理パネルを使用してドキュメントの優先順位付けと管理を行う

5. 管理: 所有者を割り当て、個人情報にタグを付け、ガバナンスの目的ですべてのデータ資産をマッピングします。

6. コラボレーション: どこかでコメントが投稿され、同僚がメンションされると通知が送信されます

アドレス: https://www.castordoc.com/

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

特徴:

1. 不要な制約を取り除く: Zeenea は、数回クリックするだけで世界中のどこからでも使用できる 100% クラウドベースのソリューションです。 Zeenea Data Catalog を選択すると、チームの情報アクセスを合理化しながら、データ カタログの実装と維持にかかるコストを管理できます。

2. データ ソースに簡単に接続: ユニバーサルな接続性と API ファーストのアプローチを提供することで、Zeenea はあらゆるシステムとデータ戦略 (エッジ、クラウド、マルチクラウド、クロスクラウド、ハイブリッド) に適応し、企業全体の情報リポジトリを構築できます。

3. 自動化とコネクタを使用すると、毎日使用するデータソースとツールからの情報を含むデータカタログを数分で使用できます。

4. データからすぐに価値を生み出す: 自動プロビジョニングメカニズムと提供される提案/修正アルゴリズムにより、カタログの全体的なコストが削減され、チームに短時間で高品質の情報が提供されます。

アドレス: https://zeenea.com/

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

特徴:

サーバーレス

スケーラブルで完全に管理されたメタデータ管理サービス。インフラストラクチャの設定や管理が不要なため、ビジネスの成長に集中できます。

サービスとしてのメタデータ

メタデータ管理サービスを使用すると、カスタム API とインターフェースを使用してデータ資産をカタログ化し、データがどこにあっても一元的に可視化できます。

一元化されたカタログ

技術メタデータを自動的にキャプチャし、タグを活用してビジネス メタデータを構造化された形式でキャプチャする、柔軟で強力なカタログ作成システムです。

検索と発見

使いやすいインターフェースと強力な構造化検索機能により、Gmail やドライブで使用されているものと同じ Google 検索テクノロジーを使用して、データ資産を簡単にすばやく見つけることができます。

スキーマメタデータ

単純なテキスト タグだけでなく、スキーマ化されたタグ (Enum、Bool、DateTime など) をサポートすることで、組織は豊富で整理されたビジネス メタデータを利用できるようになります。

クラウドDLP統合

機密データを検出して分類し、インテリジェンスを提供してデータ ガバナンスの合理化を支援します。

ローカルコネクタ

Google Cloud 以外のデータアセットの技術メタデータを Data Catalog に抽出し、すべてのデータアセットを一元的に可視化します。

クラウドIAM統合

データ資産の読み取り、書き込み、検索時にソース ACL に従うアクセス レベル制御機能を提供し、アクセス権限をエンタープライズ レベルで制御できます。

ガバナンス

Cloud DLP および Cloud IAM との統合により、強固なセキュリティとコンプライアンスの基盤が提供されます。

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

特徴:

1. データ資産全体にわたる統一されたデータマップを作成し、効果的なデータガバナンスと使用の基盤を築く

1.1.ハイブリッド ソースのメタデータを自動化および管理します。

1.2.組み込みおよびカスタムの分類子と Microsoft Information Protection の機密ラベルを使用してデータを分類します。

1.3. SQL Server、Azure、Microsoft 365、Power BI 内の機密データに一貫してラベルを付けます。

1.4. Apache Atlas APIを使用してすべてのデータシステムを簡単に統合

2. データを見つけやすくなる

2.1.使い慣れたビジネスおよび技術検索用語を使用して、必要なデータをより迅速かつ簡単に見つけます。

2.2.エンタープライズ レベルのビジネス用語を使用して、Excel データ ディクショナリの必要性を排除します。

2.3.インタラクティブなデータ系統の視覚化を通じてデータの起源を理解し、データ サイエンティスト、エンジニア、アナリストに BI、分析、人工知能、機械学習に必要なデータを提供します。

3. プレビュー版を通じてデータ管理活動を包括的に理解する

3.1.リソースタイプ、分類、ファイルサイズなどの資産ディメンション別に、データ資産全体とその分布を表示します。

3.2.スキャンの成功、失敗、キャンセルに関するステータスの更新を取得します

3.3.重要なアイデアを追加したり、語彙を再配分して検索結果を向上させましょう

住所:
https://azure.microsoft.com/ja-jp/services/purview/ より

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

特徴:

1. データの検出と管理: Alation は、データのインベントリ作成、分類、整理によって、企業のデータ資産の可視性を提供します。時間のかかるトップダウンのサイロ化されたアプローチと比較して、Alation を使用すると、企業はガバナンスの取り組みを最も重要なデータ資産に集中させ、ビジネスに最大の影響を与えることができます。

2. 実装、ワークフロー、管理の推進: Alation により、ガバナンス ポリシー、ワークフロー、ドキュメントの迅速な承認と伝達が可能になります。分析とダッシュボードを提供してキュレーションの進行状況を監視および追跡します

3. 業務部門のユーザーを積極的に関与させる: Alation は、業務部門のユーザーによるデータの使用を制限するのではなく、ガバナンス、コラボレーション、コミュニケーション機能を日常のワークフローに直接組み込んで、正確でコンプライアンスに準拠したデータ主導の意思決定を促進します。

4. 自動化されたデータ ガバナンス プロセス: Alation プラットフォームは、機械学習とクラウドソーシングを組み合わせて、データ管理、データ分類、ビジネス用語集、データ品質のドキュメント化を自動化および高速化します。

5. データへの信頼を構築: Alation は、データ品質の指標、説明、ダッシュボードをカタログ化し、データの使用および分析の時点でデータ品質情報をユーザーにリアルタイムで表示します。データ分析情報が手元にあれば、データ利用者はデータに関する重要な特性、統計、デジタルチャートを閲覧でき、迅速かつ自信を持って行動することができます。

6. リスクを積極的に軽減する: データ系統は、データの取得元、使用者、使用方法をユーザーが理解するのに役立ちます。さらに、影響分析レポートを通じて、ユーザーは変更の下流への影響を完全に理解できるため、リスクを積極的に軽減するのに役立ちます。

アドレス: https://www.alation.com/

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

特徴:

1. データ検出: データエコシステム全体にわたる統合検索と検出

2. ガバナンスとアクセス: 環境の俊敏なガバナンスを実現し、セルフサービス分析を拡張できるようにします。すべての人にパーソナライズされた検出を提供しながら、データの作業を準拠させます。

3. 共同コミュニケーション: さまざまなチームがデータ プロジェクトで簡単に共同作業できるようにします。誰もが使い慣れたツールを使えるようにして、全員が最大限に貢献できるようにすることで、結果を文脈に沿って共有し、ツール、チーム、データソース間で系統を記録できるようにします。

4. 再利用: 再利用可能でスケーラブルなデータと分析を作成する

アドレス: https://data.world

ターゲット:

1. データ検出: 最も重要なデータセットをどのように見つけるか、誰が所有しているか、そのセマンティクスやその他の関連メタデータは何か?

2. データ監査: これらのデータセットを作成または使用する人は誰か、どのように作成されるか、依存関係とサービス レベル アグリーメント (SLA) は何か、アラート ルールは何か、依存関係と一致しているか、データセットのライフサイクルはどのように管理されているか。

3. データの抽象化: データは論理的に何を表すのか、その物理的な表現は何か、どこにあるのか、どこに複製されているのか、そしてその形式は何か。

Artifact は、さまざまなデータ プロセスにわたってメタデータを一元管理するデータ モデルに基づいて構築された検索および参照ツールです。 Artifact を使用すると、すべてのチームがデータ資産、そのドキュメント、系統、使用状況、権限、およびユーザーが必要なデータ コンテキストを構築するのに役立つその他のメタデータを検出できます。このツールは、チームが役割に応じてデータをより効果的に活用するのに役立ちます

アーキテクチャは次のとおりです。

共通データ モデルと、Shopify のさまざまなデータ ストアとプロセスから情報を抽出するシンプルなメタデータ取り込みパイプラインから始めます。メタデータ抽出機能は、機能に基づいて依存関係グラフも構築します。処理後、情報は Elasticsearch インデックスに保存され、GraphQL API は Apollo クライアントを介してデータを Artifact UI に公開します。

Metacat は、データの検出、処理、管理を容易にするメタデータ サービスです。 Netflix では、データ ウェアハウスは、Amazon S3 (Hive 経由)、Druid、Elasticsearch、Redshift、Snowflake、MySql に保存されている多数のデータセットで構成されています。このプラットフォームは、データセットの使用、処理、生成に Spark、Presto、Pig、Hive の使用をサポートしています。 Metacat は、データ ソースの多様性を考慮し、データ プラットフォームがこれらのデータセット間で「単一の」データ ウェアハウスとして相互運用できるようにするために構築されました。

Netflix のビッグデータ プラットフォームのコア アーキテクチャには、3 つの主要なサービスが含まれます。これらは、実行サービス (Genie)、メタデータ サービス、およびイベント サービスです。こうしたアイデアは Netflix に特有のものではなく、Netflix はこれがシステムを構築するために必要なアーキテクチャであると考えています。

何年も前、Netflix がプラットフォームの構築を開始したとき、ETL 言語として Pig を使用し、アドホック クエリ言語として Hive を使用していました。 Pig には独自のメタデータ システムがなかったため、当時は両者を相互運用できるシステムを構築することが理想的な選択であるように思われました。

こうして、サポートされているすべてのデータ ストアの統合メタデータ アクセス レイヤーとして機能するシステムである Metacat が誕生しました。さまざまなコンピューティング エンジンを使用して、さまざまなデータ セットの集中サービスにアクセスできます。一般的に言えば、Metacat は 3 つの主な目的を果たします。

1. メタデータシステムの連合ビュー

2. データセットメタデータの統合API

3. データセットの任意のビジネスおよびユーザーメタデータの保存

大規模な分散データセットを持つ他の企業も同様の課題に直面していることは注目に値します。 Apache Atlas、Twitter のデータ抽象化レイヤー、および Linkedin の WhereHows (Linkedin のデータ検出)。

Metacat は、さまざまなデータ ストアからメタデータにアクセスするための統合された REST/Thrift インターフェースを提供します。対応するメタデータ ストアは依然としてスキーマ メタデータの真実のソースであるため、Metacat はそれをストレージに実装しません。データセットに関するビジネスおよびユーザー定義のメタデータのみを直接保存します。また、全文検索と検出のために、データセットに関するすべての情報を Elasticsearch に保存します。

大まかに言えば、Metacat の機能は次のカテゴリに分類できます。

1. データの抽象化と相互運用性

2. ビジネスおよびユーザー定義のメタデータストレージ

3. データ検出

4. データ変更の監査と通知

5. Hiveメタストレージの最適化


Databook は、データセットの内部的な場所と所有者に関するメタデータを表示および管理し、データを知識に変える Uber の社内プラットフォームです。

関数:

1. 拡張性: 新しいメタデータ、ストレージ、エンティティを簡単に追加できます。

2. アクセシビリティ: サービスはインターフェースを介してすべてのメタデータにアクセスできる

3. スケーラビリティ: 高スループットの読み取りをサポート

4. データセンター間の読み取りと書き込みをサポート

Databook は、Hive、Vertica、MySQL、Postgres、Cassandra、およびその他のいくつかの内部ストレージ システムからのさまざまなメタデータを提供します。これには、テーブル スキーマ、テーブル/列の説明、サンプル データ、統計、系統、テーブルの最新性、SLA、責任者などが含まれます。

すべてのメタデータは、UI 視覚化と RESTful API を通じてアクセスできます。

1. RESTful API は、高性能 RESTful Web サービス用の Java フレームワークである Dropwizard を搭載しており、複数のマシンに展開され、Uber の内部リクエスト転送サービスによって負荷分散されます。

2. 可視化 UI は React.js、Redux、D3.js で記述されており、主に社内のエンジニア、データ サイエンティスト、データ アナリスト、運用チームによって使用され、データ品質の問題を分類したり、関連するデータ セットを識別して調査したりするためにも使用されます。

建築:

Lexikon は、データ検出エクスペリエンスを向上させることを目的として、一連の社内製品によって生成されたデータと知識をユーザーが見つけて理解するのに役立つデータ インサイト ライブラリです。

Airbnb の社内製品は、データの発見可能性と探索性を向上させ、データに対する信頼を構築するために使用されます。主な機能は次のとおりです。

1.検索: Dataportal の最も重要な機能は、データ エコシステム全体の統合検索です。ユーザーは、ログ レコード、データ テーブル、グラフ、ダッシュボードを検索できます。コンテキストと信頼性を確立するために、検索カードにリソースに関するメタデータをできるだけ多く表示します。グラフのトポロジを活用して検索の関連性を高め、PageRank を使用して高品質で関連性の高いリソース、十分に文書化された頻繁に使用されるリソースを宣伝すると、スコアが高くなり、検索で最も望ましいエンティティにユーザーを引き付けることができます。

2.コンテキストとメタデータ: 検索から、ユーザーは詳細なコンテンツ ページにアクセスしてリソースをさらに探索できます。コンテキストのないデータは多くの場合意味がなく、十分な情報に基づかないコストのかかる意思決定につながる可能性があります。したがって、コンテンツ ページには、データ ツール全体のリソースに関するすべての情報が表示され、リソースがデータ エコシステム全体にどのように適合しているかが示されます。たとえば、リソースを使用するユーザー、リソースの作成者、リソースが作成または更新された日時、リソースが関連する他のリソースなどです。

メタデータが増えると、データも増えます。これは、あらゆるデータ ウェアハウスの基盤となるデータ テーブルに特に当てはまります。簡単に編集できるメタデータ情報により、複雑でユーザー制限のあるコマンドを回避して、テーブルの説明や列のコメントの更新が容易になります。

3.ユーザー中心のデータ: Dataportal は、ユーザーが作成、使用、収集したすべてのデータ リソースを統合するための専用のユーザー ページを提供します。同時に、企業内のどの従業員も他の従業員のページを閲覧できるため、生産と消費の両方の観点から透明性が向上します。

4.チーム中心のデータ:チームにはクエリを実行するテーブル、作成して表示するダッシュボード、追跡するチーム メトリックなどがあるため、Dataportal では専用のチーム ページが提供されます。これにより、チームをリンクして、プロジェクトをすばやく見つけて管理することが容易になります。

Nemo は、データ検出プロセスをより簡単かつ迅速にし、結果の正確性に対する信頼性を高めることに特化した社内データ検出エンジンです。

Nemo は、より複雑な検索エンジン アーキテクチャを使用して、自然言語クエリを解析して回答しながらスケーラビリティを実現します。たとえば、「Instagram には毎週何人のアクティブユーザーがいますか?」と尋ねることができます。関連するデータを含むテーブルへのアドレスを取得します。

検索エンジンのアーキテクチャ:

Nemo にはインデックスとサービスという 2 つの主要コンポーネントがあり、フロントエンドはサービス セクションの上に配置されます。インデックス作成は、バッチ インデックス作成 (毎日実行) とインスタント インデックス作成 (インデックスが即座に更新される) にさらに分けられます。したがって、Hive テーブルが作成されるたびに、即時更新により、数秒以内に名前または作成者で検索できるようになります。たとえば、過去 1 か月間にテーブルにアクセスしたエンジニアの数は、より負荷の高いバッチ プロセスで収集されるため、1 日か 2 日遅れる可能性があります。最大のデータ ソース (Hive など) は Nemo 自体のエンジニアによって処理されますが、新しいタイプのデータ成果物を作成するエンジニアは、Nemo API を呼び出して成果物を自分で検索できます。

提供のために、テキスト解析は spaCy ベースの NLP ライブラリによって実行されます。検索と初期ランキングのステップは Unicorn によって処理され、kNN ベースのスコアリングや FBLearner でトレーニングされた ML モデルなどのより複雑な信号は後処理に使用されます。さらに、後処理中に、特定のアーティファクトのユーザー リストなどのさまざまなソーシャル シグナルが考慮されます。通常はタイプと品質の制限のリストにすぎないテキストなしのクエリは特別に処理され、最終スコアは個人およびチーム レベルでの使用状況を重視します。

フロントエンドは、結果やその他のさまざまな技術的な詳細を表示する役割を担っています。たとえば、ユーザーが複数の制限を簡単に指定して、それを Unicorn クエリに簡単に変換できるようにするクエリ構築システムの提供などです。また、重複したアーティファクトや低品質のアーティファクトを強調表示して、ユーザーが正しい選択を行えるようにガイドします。

アドレス: https://www.alation.com/

特徴:

1. データガバナンスが成長を促進: Alation のプロアクティブなデータガバナンスは人を中心に据えているため、必要なデータにアクセスし、ワークフローでデータを使用する方法についてのガイダンスを受けることができます。

2. セルフサービス分析: クエリを共有してチーム間で共同作業を行います。より多くの人々がデータを使用し、大規模で迅速なデータ主導の意思決定をサポートします。

3. 移行のサポート

4. 検索と検出: 組織内のすべてのデータとデータ ユーザーに単一の参照システムを提供します。データの品質、コンテキスト、使用パターンを一目で把握

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

Collibra のデータ インテリジェンス クラウドは、正確で信頼できるデータを使用して、会社全体のすべての人、チーム、システムを連携させ、人々を事実と結び付けて、ビジネスを刺激し、前進させます。製品の特徴は次のとおりです。

1. 認定レポートを通じて戦略的な意思決定を推進する: 組織は、ビジネス用語と指標の不一致により、経営陣のレポートを信頼できないことがよくあります。 Collibra のソリューションは、レポートとメトリックの集中化、管理、認証に役立ち、大幅なコスト削減につながります。

2. データ レイクの採用と ROI の向上: エンタープライズ データ レイクは、管理性、追跡可能性、およびデータ アクセス戦略の欠如により、データ スワンプになることがよくあります。 Collibra のソリューションは、ユーザーがデータ レイク内のデータを安全かつコンプライアンスに準拠して検出、理解、信頼し、アクセスできるように支援します。

3. データ基盤を活用してプライバシー運用を加速する: 組織には、スケーラブルな方法で規制要件に対応するための信頼性の高いデータ基盤が不足していることがよくあります。 Collibraのソリューションは、データプライバシーワークフローを一元化、自動化、ガイドし、グローバルな規制をサポートします。

4. 重複データを特定してコストを削減: 多くの組織は、知らないうちに類似のサードパーティ データ セットを購入しています。 Collibra のソリューションは、重複するデータ セットを自動的に識別し、データ プロフェッショナルが重複データを簡単に削除できるようにします。

アドレス: http://collibra.com/

Atlas は、スケーラブルで拡張可能なコア基盤ガバナンス サービスのセットであり、企業が Hadoop のコンプライアンス要件を効果的かつ効率的に満たし、エンタープライズ データ エコシステム全体との統合を可能にします。

Apache Atlas は、組織がデータ資産のカタログを構築し、それらの資産を分類および管理し、データ サイエンティスト、アナリスト、データ ガバナンス チームにそれらのデータ資産に関するコラボレーション機能を提供するためのオープンなメタデータ管理およびガバナンス機能を提供します。

アドレス: https://atlas.apache.org

特徴:

1. メタデータ型とインスタンス

1.1.さまざまなHadoopおよび非Hadoopメタデータの定義済みタイプ

1.2.管理するメタデータの新しいタイプを定義する機能

1.3.型はプリミティブ属性、複合属性、オブジェクト参照を持つことができ、他の型から継承することができる。

1.4.エンティティと呼ばれるタイプのインスタンスは、メタデータオブジェクトの詳細とその関係をキャプチャします。

1.5.型とインスタンスを操作するためのREST APIにより、統合が容易になります

2. 分類

2.1. PII、EXPIRES_ON、DATA_QUALITY、SENSITIVE などのカテゴリを動的に作成する機能

2.2.カテゴリには属性を含めることができます(例:EXPIRES_ON カテゴリの expiry_date 属性)。

2.3.エンティティは複数の分類に関連付けることができるため、簡単に発見して安全に実施できます。

2.4.系統を通じて分類を伝播 - データがさまざまな処理を通過する際に、分類がデータに追従するように自動的に確認します。

3. 血統

3.1.直感的なUIにより、さまざまなプロセスを通過するデータの系統を表示できます。

3.2.系統にアクセスして更新するための REST API

4. 検索/発見

4.1.タイプ、分類、属性値、またはフリーテキストでエンティティを検索するための直感的なUI

4.2.複雑な条件で検索できる豊富なREST API

4.3.エンティティを検索するための SQL のようなクエリ言語 - ドメイン固有言語 (DSL)

5. セキュリティとデータシールド

5.1.メタデータ アクセスのきめ細かなセキュリティ。エンティティ インスタンスへのアクセスや、カテゴリの追加/更新/削除などの操作の制御をサポートします。

5.2. Apache Ranger との統合により、Apache Atlas 内のエンティティに関連付けられた分類に基づいて、データ アクセスの承認/データ マスキングがサポートされます。たとえば、PII や機密として分類されるデータにアクセスできるユーザー。カスタマーサービスユーザーは、NATIONAL_IDとして分類された列の最後の4桁のみを表示できます。

Datahub は、データ検出、データ観測、共同ガバナンスをサポートする、業界では比較的馴染みのあるツールでもあります。特徴:

1. オープンソース

2. 巨大なエコシステム: DataHub には、Kafka、Airflow、MySQL、SQL Server、Postgres、LDAP、Snowflake、Hive、BigQuery などが統合されています。

3. DataHub はプッシュベースのアーキテクチャを採用しており、常に変化するメタデータに対応するように構築されています。モジュール設計により、組織のデータの増加に合わせて拡張できます。

詳しくは公式アカウント「Go Big Data」にアクセスして原文をお読みください。

住所:
https://datahubproject.io/

Amundsen はオープンソースのデータ検出およびメタデータ エンジンです。その特徴は次のとおりです。

1. データの検出: 簡単なテキスト検索でデータを検索します。 Pagerankにインスパイアされた検索アルゴリズムは、テーブル/ダッシュボードの名前、説明、タグ、およびビューアクティビティに基づいて結果を推奨します

2。自動化されキュレーションされたメタデータを表示:自動化されたキュレーションされたメタデータを使用してデータに信頼を構築します - テーブルと列、その他の一般ユーザーの説明、テーブルが最後に更新されたとき、統計、データプレビュー(許可されている場合)など。 ETLジョブと生成されたコードをリンクして、データを簡単に分類します。

3。コラボレーション:更新されたテーブルと列、および使用するテーブルと列とそれらが含まれるものについての質問を説明することにより、不必要な通信を削減します。

4。共有:同僚が頻繁に使用、所有、またはブックマークするデータを表示します。特定のテーブルの上に構築されたダッシュボードを表示することで、テーブルの最も一般的なクエリがどのように見えるかについてのアイデアを取得します。

住所:http://amundsen.io/

Unity Catalogは、カタログデータとAIを統一するDatabricksによって開発された細粒のガバナンスツールです。既存のカタログ、データ、およびストレージシステムで動作するため、既存の投資を活用して将来のガバナンスモデルを構築できます。たとえば、Apache Hive MetastoresまたはAmazon S3に既存のデータをマウントし、ImmutaやPrivaceraなどの高度なセキュリティソリューション全体でポリシーを管理することができ、ANSI SQL DCLを使用してすべての場所で許可を管理できます。

詳細については、公式アカウント「Go Big Data」にアクセスして、元のテキストを読んでください。

その特徴は次のとおりです。

1. UNITY CATALOG UIでは、データ資産を1か所で簡単に発見、レビュー、管理できます。データの系統、役割ベースのセキュリティポリシー、テーブルまたは列レベルのラベル付け、および中央監査機能により、データ管理者は、レイクハウスで直接データアクセス、コンプライアンス、プライバシー要件を直接満たすことができます。

2。Unity Catalogは、オープン標準のANSI SQL DCLを介して、クラウド全体のデータ資産に細粒の集中ガバナンスをもたらします。つまり、データベース管理者は、馴染みのあるSQLを使用して、マークされたすべての列の任意のユーザー固有のビューで許可を簡単に付与できます。

3.すべての組織は、データをよりよく協力してロック解除するために、顧客、パートナー、およびサプライヤーとデータを共有する必要があります。 Unityカタログは、組織内および組織全体で共有資産を中央に管理および管理するためのオープンソースのデルタ共有に基づいて構築されています。

住所:
https://databricks.com/product/unity-catalog

<<:  近年のユニクロの売上データ(年間利益133億円、なぜユニクロは競争力があるのか​​?)

>>:  企業のビジネスデータ分析(ビジネス分析を理解するのに役立つ 5 分)

推薦する

お茶の普及活動企画プラン(歴史上最も成功したお茶の普及活動は何だかご存知ですか?#馬鞍山茶室)

歴史上最も成功したお茶のプロモーションキャンペーンは何だかご存知ですか? #馬鞍山茶屋史上最も成功し...

広州ブランド企画マーケティング会社(広州中雷文化コミュニケーション株式会社の広東株式取引センター上場を心よりお祝い申し上げます)

広州中雷文化コミュニケーション株式会社が広東株式取引センターに上場したことを心よりお祝い申し上げます...

製品運用について(年次レビュー:6つの主要製品と運用について最も必要な知識を10分で学ぶ)

年次レビュー: 6 つの主要製品と業務に関する最も必要な知識を 10 分で学習2016 年も残り 3...

優れた製品プロモーションコピー(「SMSポイント」を使用して198元のガソリン割引カードを購入したが、使い切るのに200回以上かかった)

「SMSポイント」を使って198元のガソリン割引カードを購入しましたが、使い切るのに200回以上か...

電子商取引の促進方法(2023年の電子商取引発展の3つのキーワードから、2024年のトレンドと機会を見る)

2023年の電子商取引発展の3つのキーワードから、2024年のトレンドと機会がわかります2023年...

倉石ブランド企画(倉石誠司)

倉石誠司最も魅力的な市場は、多くの場合、最も競争の激しい市場でもあります。中国の自動車市場は8年連続...

SEO ウェブサイトの最適化のためにアメリカのスペースを選択するにはどうすればよいでしょうか?

米国のスペースを選択する際、多くのウェブマスターは、米国のスペースのレンタル価格、全体的なパフォーマ...

アプリ運用に必要なデータ分析(運用に必要なデータ分析#Pinduoduo運用)

データ分析は運用に必須のスキルです#PinduoduoOperationデータ分析は運用に必須です...

Alibaba Cloud サーバー帯域幅の価格と課金方法の紹介

クラウド サーバーの帯域幅料金は、クラウド サーバーのレンタル費用の重要な部分です。一般的に、選択す...

WordPress シンプルで実用的なポップアッププラグインのおすすめ

WodPess Web サイトには、ポップアップ ウィンドウが表示されることがあります。これらの小さ...

運用データの分析と要約(運用データレポートの解読:数字からビジネスチャンスを発見)

運用データレポートの解読: 数字からビジネスチャンスを見つける今日のインターネット時代では、データは...

絶縁ゴムパッドブランドランキング(金能電力が安全ツールのトップ10ブランドにランクインした背景:欧州基準を厳格に遵守)

金能電力が安全ツールのトップ10ブランドに選ばれた背景:欧州基準を使用して、自らに厳しい要求を課す最...

運用データ画面(女子向け!ECライブ中継画面の作り方は?テンプレートを使ったEC画面データ分析は?)

女の子たち!電子商取引のライブストリーミング用の大画面を作成するにはどうすればよいでしょうか?テン...

ヒューマノイドロボットの分野に参入しましょう!数百億ドル規模のPEEK材料市場が開拓される

12月10日、A株PEEK素材セクターは上昇し、同セクターの多くの銘柄が日中の制限値に達した。そのう...