QuickStartによるマスタリングステップの設定

始める前に

以下が必要です。

このタスクについて

このタスクでは、マッチングとマージングの両方が統合されたマスタリングステップを設定します。

手順

  1. 対象となるフローのフロー定義に移動します。

    QuickStartフロー - Manage Flowsテーブル - フロー名をクリック

    1. QuickStartのナビゲーションバーで、[Flows]をクリックします。
    2. [Manage Flows]テーブルで、このフローを含む行を探します。
      ヒント: 楽に探せるように、いずれかの列でテーブルをソートできます。
    3. このフローの名前をクリックします。
  2. フローのシーケンス内で、設定対象のマスタリングステップのサマリーボックスをクリックします。


    ステップ詳細のパネルが、フローシーケンスパネルの下に表示されます。

マッチング

  1. 下部にあるステップの詳細パネルで、[Matching]タブをクリックします。


  2. [Match Options]を設定します。
    • 新しいオプションを追加する場合、[Add]ボタンをクリックします。
    • オプションを編集する場合、省略記号(⋮)をクリックし、Edit Settingsを選択します。
    • オプションを削除する場合、省略記号(⋮)をクリックし、Deleteを選択します。
    [Match Options]フィールド
    フィールド 説明
    Type マッチングのタイプです。
    • Exact。2つ以上のレコードの指定されたプロパティの値がまったく同じかどうかを判断します。
    • Synonym。指定したシソーラスに従って、2つ以上のレコードの指定されたプロパティの値が同義語かどうかを判断します。
    • Double Metaphone。2つ以上のレコードの指定されたプロパティの値が、ダブルメタフォンアルゴリズムに基づいて類似しているかどうかを判断します。例えば、「Smith」は「Schmidt」のように聞こえることがあります。
    • Zip。2つ以上のレコードの郵便番号がマッチするかどうかを判断します。
    • Reduce。特定のマッチの重要性を低減します。例えば、2つのレコードの住所と姓がマッチする場合でも、同じ家族の2人である可能性があるため、その類似性だけでは、2つのレコードが必ずしも同じ人物を示しているとは限りません。
    • Custom。カスタムモジュールで関数を実行し、2つ以上のレコードの指定されたプロパティの値を比較します。

    Exact match properties


    Synonym properties


    Double Metaphone properties


    Zip properties


    Reduce properties


    Custom match properties

    Property to Match 値を比較するプロパティ
    Properties to Match 値を比較する1つあるいは複数のプロパティ。
    Weight ルールの相対的な重要性を表す係数。
    Weight マッチの重みを減らす大きさを示す正の整数。
    Thesaurus URI

    MarkLogicサーバーデータベースに格納され、同義語を決定するために使用するシソーラスの場所。参照:シソーラスドキュメントを管理する

    Filter

    フィルタとして使用するシソーラス内のノード。例:<thsr:qualifier>birds</thsr:qualifier>

    詳細は、thsr:expand$filterパラメータを参照してください。

    5-vs-9 Match Weight

    9桁の郵便番号と5桁の郵便番号において、最初の5桁がマッチした場合に使用する重み。米国の郵便番号にのみ使用可能です。

    9-vs-5 Match Weight

    2つの9桁の郵便番号で、最初の5桁がマッチし、最後の4桁がマッチしない場合に使用する重み。 米国の郵便番号にのみ使用可能です。

    注: 9桁すべてがマッチした際に重みを追加する場合には、Exactマッチタイプを使用して、郵便番号を文字列として比較します。一部のデータに標準外の形式が含まれている場合(一般的なハイフンではなく空白やダッシュが使用されている場合など)、郵便番号のフィールドをエンティティの標準形式にマッピングします。
    Dictionary URI

    単語の発音の比較時に使用される音声辞書のデータベース内の場所。参照:カスタム辞書

    Distance Threshold

    2つの文字列で音声の差異(距離)がないとされる(=文字列が類似している)と判断する際のしきい値。参照:spell関数

    Collation

    使用するコレーションのURI。コレーションとは、文字列のソート順を指定したものです。参照:エンコーディングとコレーション

    URI カスタムモジュールの場所。
    Function カスタムモジュール内のカスタム関数の名前。
    Namespaces カスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。
  3. [Match Thresholds]を設定します。
    • 新しいしきい値を追加する場合、[Add]ボタンをクリックします。
    • しきい値を編集する場合、省略記号(⋮)をクリックし、Edit Settingsを選択します。.
    • しきい値を削除する場合、省略記号(⋮)をクリックし、Deleteを選択します。.
    [Match Thresholds]フィールド

    [Match Thresholds]プロパティ

    フィールド 説明
    名前しきい値ルールの名前。
    Weight Thresholdマッチの総重みを比較する際のしきい値。
    Action 総重みが[Weight]のしきい値を超えた場合の処理。
    • Merge。マージルールに従って候補レコードを自動的にマージします。
    • Notify。人がマッチを確認し、実行するアクションを決定するための通知を送信します。
    • Custom。カスタムモジュールで定義されたアクションを実行します。
    URI(アクションがCustomの場合に表示されます)。 カスタムモジュールの場所。
    Function(アクションがCustomの場合に表示されます)。 カスタムモジュール内のカスタム関数の名前。
    Namespaces(アクションがCustomの場合に表示されます)。 カスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。

マージング

  1. 下部にあるステップの詳細パネルで、[Merging]タブをクリックします。


  2. [Merge Options]を設定します。
    • 新しいオプションを追加する場合、[Add]ボタンをクリックします。
    • オプションを編集する場合、省略記号(⋮)をクリックし、Edit Settingsを選択します。
    • オプションを削除する場合、省略記号(⋮)をクリックし、Deleteを選択します。
    [Merge Options]フィールド
    フィールド 説明
    Type マージのタイプ。
    • Standard。マージにおいて、定義済みのマージ戦略ではなく、独自の設定を使用します。
    • Strategy。マージは、定義済みの戦略に従って実行されます。
    • Custom。マージは、カスタムモジュールのカスタム関数を使用して実行されます。

    Standard merge properties


    Strategy merge properties


    Custom merge properties

    Property to Mergeマージするプロパティの名前。
    Max Valuesマージされたプロパティでの値の許容最大数。デフォルトは99です。
    Max Sourcesマージ対象の値の取得元データソースの最大個数。
    Source Weightsソースデータセットのリストと、それに割り当てる重み。
    Length Weight文字列の長さに割り当てる重み。
    Strategy Nameマージに使用する事前定義された戦略または一連の設定。
    URIカスタムモジュールの場所。
    Functionカスタムモジュール内のカスタム関数の名前。
    Namespacesカスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。
  3. [Merge Strategies]を設定します。
    • 新しい戦略を追加する場合、[Add]ボタンをクリックします。
    • 戦略を編集する場合、省略記号(⋮)をクリックし、Edit Settingsを選択します。.
    • 戦略を削除する場合、省略記号(⋮)をクリックし、Deleteを選択します。.
    [Merge Strategies]フィールド

    マージ戦略プロパティ

    フィールド 説明
    Default?この方式をデフォルトにする場合は[Yes]を選択します。
    名前このマージ戦略の名前。
    Max Valuesマージされたプロパティでの値の許容最大数。デフォルトは99です。
    Max Sourcesマージ対象の値の取得元データソースの最大個数。
    Source Weightsソースデータセットのリストと、それに割り当てる重み。
    Length Weight文字列の長さに割り当てる重み。
  4. (オプション)Timestamp Pathレコード内のタイムスタンプフィールドへのパスに設定します。

    このフィールドは、マージされたプロパティにどの値を使うのかを直近の利用に基づいて判断するのに使用されます。Merge Optionsスタンダード)あるいはマージ戦略Max Valuesフィールドで最大個数を指定します。

    例えば、Max Valuesが3に設定されており、マッチ基準を満たすレコードが5つだった場合、直近の3つのレコードだけが返されます(それ以前の2つは無視されます)。

    注: パス内で使用されている名前空間は、レコード内で定義されている必要があります。
  5. [Merge Collections]を設定します。
    • 新しいコレクションタグを追加する場合、[Add]ボタンをクリックします。
    • コレクションタグを編集する場合、省略記号(⋮)をクリックし、Edit Settingsを選択します。
    • コレクションタグを削除する場合、省略記号(⋮)をクリックし、Deleteを選択します。

    マージ戦略プロパティ

    説明
    Event コレクションに対するアクションをトリガーとするイベント。
    • onMerge。マッチによってマージ(自動または手作業)が行われる場合。
    • onNoMatch。ソースデータベース/ファイル全体でマッチが見つからない場合。
    • onArchive。レコードがアーカイブされたとき。
    • onNotification。通知が送信またはログに記録されたとき。
    Default Collections 結果として得られるレコードにデフォルトで付けられるコレクションタグ。
    Additional Collections 結果として得られるレコードに追加されるコレクションタグ。このリストを編集するには、Action列の縦方向の省略記号(⋮)をクリックして、[Edit]を選択します。
    追加コレクションの編集ダイアログ