マスタリング用の出自

マスタリングサマリー

マスタリングあるいはマージングステップにおいて、以下の情報を含むマスタリングサマリーが生成されます。

  • ジョブID
  • 発見されたマッチの個数
  • 作成されたマージ済みレコードの個数
  • 2レコード間でマッチしたエンティティプロパティのリスト
  • 任意の2レコード間でのマッチの結果得られたマッチングアルゴリズムのリスト

マスタリングサマリーは、data-hub-JOBSデータハブ内にコレクションタグJobReportを付けた形で格納されます。

特定のジョブに関してマスタリングサマリーを抽出するクエリの例:

   cts.search(cts.andQuery([
    cts.collectionQuery('JobReport'),
    cts.jsonPropertyValueQuery('jobID', '<jobID>')
  ]))
注: マスタリングサマリーは、provenanceGranularityLevelの設定を問わず必ず生成されます。しかし上述のクエリ例を実行する際、provenanceGranularityLeveloffに設定されている場合、空のリストが返されます。

Fineレベルの出自

provenanceGranularityLevelfineに設定されている場合、追加情報がトラッキングされます。

マッチ

1つあるいは複数のレコードとマッチする各レコードごとに、以下の出自情報がトラッキングされます。

  • ジョブID
  • 対象となるレコードのなかでマッチしたものの識別子(主キーとして設定されたURIおよびプロパティ)
  • マージしきい値スコア
  • 総スコア
  • 各マッチングプロパティごと
    • マッチしたプロパティ
    • マッチした値
    • そのマッチのスコア
    • トリガーされたマッチングアルゴリズム(Exact、Synonym、Zipなど)

マージ

各マージごとに、以下の出自情報がトラッキングされます。

  • マージされた各プロパティに値を提供した元のレコードのパス