QuickStartによるマスタリングステップの設定

スマートマスタリングでは、マッチングマージという2つのルールカテゴリを定義する必要があります。

  • マッチングルールでは、レコード間の類似性と比較の重みに基づいて、2つのレコードがマージの候補であるかどうかを判断します。
    • マッチオプションは、レコードの比較方法を定義します。
    • マッチしきい値では、制限と、制限を超えた場合に実行するアクションを定義します。
  • マージルールでは、しきい値に基づいて候補の処理方法を指定します。
    • マージオプションでは、候補レコードのプロパティを組み合わせる方法を定義します。
    • マージ方式は、名前を付けて再使用できるマージオプションのセットです。
    • マージコレクションは、同じコレクションタグを持つレコードのセットです。

これらのルールは、マスタリングステップで定義します。

スマートマスタリングの詳細については、スマートマスタリングフレームワークのドキュメントを参照してください。

開始する前に

以下が必要です。

手順

  1. 目的のFlowのFlow定義に移動します。

    <u></u>QuickStartの[Flows] - [<u></u>Manage Flows]テーブル - Flow名をクリック

    1. QuickStartのナビゲーションバーで、[Flows]をクリックします。
    2. [Manage Flows]テーブルで、Flowを含む行を検索します。
      ヒント:検索を容易にするために、いずれかのカラムでテーブルをソートできます。
    3. Flowの名前をクリックします。
  2. Flowシーケンスで、マスタリングステップのサマリーボックスをクリックします。


    Flowパネルの下に、ステップの詳細パネルが表示されます。

マッチング

  1. 下部にあるステップの詳細パネルで、[Matching]タブをクリックします。


  2. [Match Options]を設定します。
    • 新しいオプションを追加するには、[Add]ボタンをクリックします
    • オプションを編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
    • オプションを削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
    [Match Options]のフィールド
    フィールド 説明
    Type マッチングタイプ。
    • Exact。2つ以上のレコードの指定されたプロパティの値がまったく同じかどうかを判断します。
    • Synonym。指定したシソーラスに従って、2つ以上のレコードの指定されたプロパティの値が同義語かどうかを判断します。
    • Double Metaphone。2つ以上のレコードの指定されたプロパティの値が、ダブルメタフォンアルゴリズムに基づいて類似しているかどうかを判断します。例えば、「Smith」は「Schmidt」のように聞こえることがあります。
    • Reduce。特定のマッチの重要性を低減します。例えば、2つのレコードの住所と姓がマッチする場合でも、同じ家族の2人の構成員である可能性があるため、その類似性だけでは、2つのレコードが必ずしも同じ人物を参照しているとは限りません。
    • Zip。2つ以上のレコードの郵便番号がマッチするかどうかを判断します。
    • Custom。カスタムモジュールで関数を実行し、2つ以上のレコードの指定されたプロパティの値を比較します。

    Exactマッチプロパティ


    Synonymプロパティ


    Double Metaphoneプロパティ


    Reduceプロパティ


    Zipプロパティ


    Customマッチプロパティ

    Property to Match 値を比較するプロパティ
    Properties to Match 値を比較する1つあるいは複数のプロパティ
    Weight ルールの相対的な重要性を表す係数
    Weight マッチの重みを減らす大きさを示す正の整数
    Thesaurus URI

    MarkLogicサーバーデータベースに格納され、同義語を決定するために使用するシソーラスのロケーション。参照:シソーラスドキュメントの管理

    Filter

    フィルタとして使用するシソーラス内のノード。例えば、<thsr:qualifier>birds</thsr:qualifier>.のようになります。

    詳細については、thsr:expand$filterパラメータを参照してください。

    5-matches-9 Boost

    9桁の郵便番号と5桁の郵便番号で、郵便番号の最初の5桁がマッチした場合に使用する重み。米国の郵便番号にのみ適用されます。

    9-matches-5 Weight

    2つの9桁の郵便番号で、最初の5桁がマッチし、最後の4桁がマッチしない場合に使用する重み。米国の郵便番号にのみ適用されます。

    注:9桁すべてがマッチする場合の重みを追加するには、Exactマッチタイプを使用して、郵便番号を文字列として比較します。一部のデータに標準外の形式が含まれている場合(一般的なハイフンではなく空白やダッシュが使用されている場合など)、郵便番号のフィールドをエンティティの標準形式にマップします。
    Dictionary URI

    データベースに格納され、単語の発音の比較時に使用される音声辞書のロケーション。参照:カスタム辞書

    Distance Threshold

    2つの文字列で音声の差異(距離)が無視される、つまり文字列が相互に似ていると判断されるしきい値。参照:「spell関数

    Collation

    使用するコレーションのURI。コレーションは、文字列のソート順を指定します。参照:エンコーディングとコレーション

    URI カスタムモジュールの場所
    関数 カスタムモジュール内のカスタム関数の名前
    Namespace カスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。
  3. [Match Thresholds]を設定します。
    • 新しいしきい値を追加するには、[Add]ボタンをクリックします
    • しきい値を編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
    • しきい値を削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
    [Match Thresholds]のフィールド

    [Match Thresholds]のプロパティ

    フィールド 説明
    名前しきい値ルール名
    weightマッチの総重みを比較するしきい値
    アクション 総重みが[Weight]のしきい値を超えた場合の処理
    • Merge。マージルールに従って候補レコードを自動的にマージします。
    • Notify。人がマッチを確認し、実行するアクションを決定するための通知を送信します。
    • Custom。カスタムモジュールで定義されたアクションを実行します。
    URI(アクションがCustomの場合に使用できます)。カスタムモジュールの場所
    関数(アクションがCustomの場合に使用できます)。カスタムモジュール内のカスタム関数の名前
    Namespace(アクションがCustomの場合に使用できます)。カスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。

マージ

  1. 下部にあるステップの詳細パネルで、[Merging]タブをクリックします。


  2. [Merge Options]を設定します。
    • 新しいオプションを追加するには、[Add]ボタンをクリックします
    • オプションを編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
    • オプションを削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
    [Merge Options]のフィールド
    フィールド 説明
    Type マージタイプ。
    • Standard。マージでは、定義済みのマージ方式ではなく、独自の設定を使用します。
    • Strategy。マージは、定義された方式に従って実行されます。
    • Custom。マージは、カスタムモジュールのカスタム関数を使用して実行されます。

    Standardマージプロパティ


    Strategyマージプロパティ


    Customマージプロパティ

    Property to Mergeマージするプロパティの名前
    Max Valuesマージされたプロパティでの値の許容最大数。デフォルトは99です。
    Max Sourcesマージする値の取得元データソースの最大数
    Source Weightsソースデータセットのリストと、それに割り当てる重み
    Length Weight文字列の長さに割り当てる重み
    Strategy Nameマージに使用する事前定義された方式または設定のセット
    URIカスタムモジュールの場所
    関数カスタムモジュール内のカスタム関数の名前
    Namespaceカスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。
  3. [Merge Strategies]を設定します。
    • 新しい方式を追加するには、[Add]ボタンをクリックします
    • 方式を編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
    • 方式を削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
    [Merge Strategies]のフィールド

    [Merge Strategies]のプロパティ

    フィールド 説明
    Default?この方式をデフォルトにする場合は[Yes]を選択します。
    名前マージ方式の名前
    Max Valuesマージされたプロパティでの値の許容最大数。デフォルトは99です。
    Max Sourcesマージする値の取得元データソースの最大数
    Source Weightsソースデータセットのリストと、それに割り当てる重み
    Length Weight文字列の長さに割り当てる重み
  4. [Merge Collections]を設定します。
    • 新しいコレクションタグを追加するには、[Add]ボタンをクリックします
    • コレクションタグを編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
    • コレクションタグを削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
    [Merge Collections]のフィールド

    [Merge Strategies]のプロパティ

    フィールド 説明
    イベント コレクションでアクションをトリガーとするイベント。
    • On Merge。マッチによってマージ(自動または手動)が行われる場合。
    • On No Match。ソースデータベース/ファイル全体でマッチが見つからない場合。
    • On Notification。通知が送信またはログに記録されたとき。
    • On Archive。レコードがアーカイブされたとき。
    Collections to Addタグのデフォルトの結合に追加する1つあるいは複数のコレクションタグ
    Collections to Removeタグのデフォルトの結合から削除する1つあるいは複数のコレクションタグ
    Collections to Setタグのデフォルトの結合を置換する1つあるいは複数のコレクションタグ