マスタリング用の出自
マスタリングサマリー
マスタリングあるいはマージングステップにおいて、以下の情報を含むマスタリングサマリーが生成されます。
- ジョブID
- 発見されたマッチの個数
- 作成されたマージ済みレコードの個数
- 2レコード間でマッチしたエンティティプロパティのリスト
- 任意の2レコード間でのマッチの結果得られたマッチングアルゴリズムのリスト
マスタリングサマリーは、data-hub-JOBS
データハブ内にコレクションタグJobReport
を付けた形で格納されます。
特定のジョブに関してマスタリングサマリーを抽出するクエリの例:
cts.search(cts.andQuery([
cts.collectionQuery('JobReport'),
cts.jsonPropertyValueQuery('jobID', '<jobID>')
]))
注: マスタリングサマリーは、
provenanceGranularityLevel
の設定を問わず必ず生成されます。しかし上述のクエリ例を実行する際、provenanceGranularityLevel
がoff
に設定されている場合、空のリストが返されます。Fineレベルの出自
provenanceGranularityLevel
がfine
に設定されている場合、追加情報がトラッキングされます。
マッチ
1つあるいは複数のレコードとマッチする各レコードごとに、以下の出自情報がトラッキングされます。
- ジョブID
- 対象となるレコードのなかでマッチしたものの識別子(主キーとして設定されたURIおよびプロパティ)
- マージしきい値スコア
- 総スコア
- 各マッチングプロパティごと
- マッチしたプロパティ
- マッチした値
- そのマッチのスコア
- トリガーされたマッチングアルゴリズム(Exact、Synonym、Zipなど)
マージ
各マージごとに、以下の出自情報がトラッキングされます。
- マージされた各プロパティに値を提供した元のレコードのパス