出自とリネージ

概要

MarkLogicでは、出自(provenance)でデータの出所を、またリネージでデータの経緯をトラッキングします。「出自メタデータ」とは、MarkLogicデータハブがトラッキングする出自情報およびリネージ情報を組み合わせたものです。出自情報は、読み取りから始まってレコードがMarklogicサーバーに存在するあいだずっと、すべての変更を反映するように更新されます。

出自およびリネージ情報はすべてXMLドキュメントとして(PROV XMLスキーマを使用data-hub-JOBSデータベース内に格納されます。これは保護されたコレクション http://marklogic.com/provenance-services/recordに追加されます。出自およびリネージレコードが作成されると、これらの情報の関係を定義するトリプルも生成されます。

出自情報はクエリコンソールで確認できます。

セキュリティ

出自およびリネージの情報にアクセスするには、以下のセキュリティロールが必要です。

ロール 説明
ps-user

以下ができます。

  • 出自およびリネージ情報を記録する処理を実行します。
  • 出自およびリネージ情報を読み取ります。

自動生成されたユーザー(data-hub-admin-userflow-developerflow-operator)がこのロールに自動的に割り当てられます。

ヒント: 出自レコードの読み取りしかしないユーザーには、ps-userロールを割り当てます。
ps-internal 出自レコードの更新ができます。管理者ロールのユーザーも同じパーミッションを持っています。

出自の粒度

データハブ では、出自情報の粒度(細かさ)に3つのレベルがあります。coarse(デフォルト)、fineoffです。

Jobsドキュメントだけが作成されます。それ以外の出自やリネージ情報はトラッキングされません。

"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"

ドキュメントレベルの出自情報だけがトラッキングされます。

現在のフローやステップの出自情報は格納されません。

注意: プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。

プロパティレベルの出自情報もトラッキングされます。

マッピングステップの出自情報には、すべてのエンティティプロパティおよびそれにマッピングされたソースフィールドのXPathが含まれています。

この出自情報は、カスタマイズできません。
"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"

ドキュメントレベルの出自情報だけがトラッキングされます。

現在のフローやステップの出自情報は格納されません。

注意: プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。

プロパティレベルの出自情報もトラッキングされます。

マッチング、マージング、マスタリングステップでは、追加の出自情報がトラッキングされます。

この出自情報は、カスタマイズできません。
"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"

ドキュメントレベルの出自情報だけがトラッキングされます。

現在のフローやステップの出自情報は格納されません。

注意: プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。

プロパティレベルの出自情報もトラッキングされます。

マッチング、マージング、マスタリングステップでは、追加の出自情報がトラッキングされます。

この出自情報は、カスタマイズできません。

provenanceGranularityLevelがどのような値を取っても、以下のようになります。

  • マージによってできたレコードには、その元レコードすべての出自情報が含まれます。provenanceGranularityLevelcoarseあるいはfineの場合、マージされたレコードには、実行されたマスタリングステップの出自情報も含みます。
  • マスタリングサマリーがマスタリングステップあるいはマージングステップの一環として作成されます(マッチングステップの場合はされません)。
"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"

ドキュメントレベルの出自情報だけがトラッキングされます。

現在のフローやステップの出自情報は格納されません。

注意: プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。

プロパティレベルの出自情報もトラッキングされます。

マッチング、マージング、マスタリングステップでは、追加の出自情報がトラッキングされます。

この出自情報は、カスタマイズできません。

provenanceGranularityLevelがどのような値を取っても、以下のようになります。

  • マージによってできたレコードには、その元レコードすべての出自情報が含まれます。provenanceGranularityLevelcoarseあるいはfineの場合、マージされたレコードには、実行されたマスタリングステップの出自情報も含みます。
  • マスタリングサマリーがマスタリングステップあるいはマージングステップの一環として作成されます(マッチングステップの場合はされません)。

Jobsドキュメントだけが作成されます。それ以外の出自やリネージ情報はトラッキングされません。

カスタムステップモジュールには、ドキュメントレベルあるいはプロパティレベルの出自を生成するコードを追加できます。詳細は、カスタムステップモジュールの編集を参照してください。

"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"
ドキュメントレベルの出自情報だけがトラッキングされます。

現在のフローやステップの出自情報は格納されません。

注意: プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。
ドキュメントレベルの出自情報は、カスタマイズできません。
プロパティレベルの出自情報は、カスタムステップでカスタマイズ可能です。
"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"
ドキュメントレベルの出自情報だけがトラッキングされます。

現在のフローやステップの出自情報は格納されません。

注意: プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。
ドキュメントレベルの出自情報は、カスタマイズできません。
プロパティレベルの出自情報は、カスタムステップでカスタマイズ可能です。
"provenanceGranularityLevel" : "coarse" "provenanceGranularityLevel" : "fine" "provenanceGranularityLevel" : "off"

Jobsドキュメントだけが作成されます。それ以外の出自やリネージ情報はトラッキングされません。

カスタムステップモジュールには、ドキュメントレベルあるいはプロパティレベルの出自を生成するコードを追加できます。詳細は、カスタムステップモジュールの編集を参照してください。

フローやステップにおいて出自のトラッキングをオフにした場合でも、以前収集した出自情報は保持されます。既存の出自情報を削除するには、データベース管理者権限が必要です。