マスタリング:マッチングとマージ

データハブでのマスタリング(マッチングとマージ)の概要。

MarkLogicデータハブでのマスタリングについて

スマートマスタリングは、定義したルールに基づいて同じエンティティを参照する、データ内のレコードを検索し、指定したしきい値に応じてそうしたレコードをマージする、MarkLogicの技術です。

MarkLogicデータハブでは、マスタリングのステップに次の2つのルールセットが関与しています。

  • マッチング。マッチングルールでは、比較するプロパティ、比較する方法、および超過時にアクションを引き起こすためのしきい値を定義します。
  • マージ。マージルールでは、データ内の2つ以上のレコードをマージする方法を定義します。作成したマージルールに従って、元のレコードのコンテンツを組み合わせて新しいレコードが作成されます。元のレコードは、データベース内に残り、アーカイブ済みとしてタグ付けされます。

マッチング

1つあるいは複数のルールを作成して、2つ以上のレコードがマッチするかどうかを判断できます。各ルールでは、候補レコード内の単一プロパティの値を比較します。比較には、次のいずれかのタイプがあります。

  • Exact。2つ以上のレコードの指定されたプロパティの値がまったく同じかどうかを判断します。
  • Synonym。指定したシソーラスに従って、2つ以上のレコードの指定されたプロパティの値が同義語かどうかを判断します。
  • Double Metaphone。2つ以上のレコードの指定されたプロパティの値が、ダブルメタフォンアルゴリズムに基づいて類似しているかどうかを判断します。例えば、「Smith」は「Schmidt」のように聞こえることがあります。
  • Reduce。特定のマッチの重要性を低減します。例えば、2つのレコードの住所と姓がマッチする場合でも、同じ家族の2人の構成員である可能性があるため、その類似性だけでは、2つのレコードが必ずしも同じ人物を参照しているとは限りません。
  • Zip。2つ以上のレコードの郵便番号がマッチするかどうかを判断します。
  • Custom。カスタムモジュールで関数を実行し、2つ以上のレコードの指定されたプロパティの値を比較します。

しきい値を指定し、しきい値を超えた場合の処理を指定できます。例えば、しきい値を超えたときに、次のような処理が考えられます。

  • 自動マージをトリガーする。
  • 通知を送信する。
  • カスタムモジュールを実行する。

マージ

マージでは、新しいレコードを作成し、指定したルールに従って元のレコードの値を結合して新しいレコードにコピーできます。例えば次のことができます。

  • 新しいレコードにコピーする一意の値の数を制限できます。
  • 値をコピーするデータソースの数を制限できます。
  • 特定のデータセットのレコードのみをマージ可能にするよう指定できます。また、各ソースに重みを割り当て可能で、信頼性の高いソースを優先できます。
  • 文字列の長さに重みを割り当てることもできます。

特定のマージ設定値の組み合わせを使用する場合は、それらをマージ方式として保存すれば、後からマージ方式名で参照できます。

カスタムモジュールを使用して、独自のマージを実行することもできます。

マージは非破壊的な操作です。作成したマージルールに従って、元のレコードのコンテンツを組み合わせて新しいレコードが作成されます。元のレコードは、データベース内に残り、アーカイブ済みとしてタグ付けされます。