QuickStartによるマスタリングステップの設定
スマートマスタリングでは、マッチングとマージという2つのルールカテゴリを定義する必要があります。
- マッチングルールでは、レコード間の類似性と比較の重みに基づいて、2つのレコードがマージの候補であるかどうかを判断します。
- マッチオプションは、レコードの比較方法を定義します。
- マッチしきい値では、制限と、制限を超えた場合に実行するアクションを定義します。
- マージルールでは、しきい値に基づいて候補の処理方法を指定します。
- マージオプションでは、候補レコードのプロパティを組み合わせる方法を定義します。
- マージ方式は、名前を付けて再使用できるマージオプションのセットです。
- マージコレクションは、同じコレクションタグを持つレコードのセットです。
これらのルールは、マスタリングステップで定義します。
スマートマスタリングの詳細については、スマートマスタリングフレームワークのドキュメントを参照してください。
開始する前に
以下が必要です。
- Java SE JDK 8以降
- MarkLogic 9.0-7以降
- ChromeまたはFirefox (QuickStart使用時)
手順
- 目的のFlowのFlow定義に移動します。
- QuickStartのナビゲーションバーで、[Flows]をクリックします。
- [Manage Flows]テーブルで、Flowを含む行を検索します。ヒント:検索を容易にするために、いずれかのカラムでテーブルをソートできます。
- Flowの名前をクリックします。
- Flowシーケンスで、マスタリングステップのサマリーボックスをクリックします。
Flowパネルの下に、ステップの詳細パネルが表示されます。
マッチング
- 下部にあるステップの詳細パネルで、[Matching]タブをクリックします。
- [Match Options]を設定します。
- 新しいオプションを追加するには、[Add]ボタンをクリックします。
- オプションを編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
- オプションを削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
[Match Options]のフィールド
フィールド 説明 Type マッチングタイプ。 - Exact。2つ以上のレコードの指定されたプロパティの値がまったく同じかどうかを判断します。
- Synonym。指定したシソーラスに従って、2つ以上のレコードの指定されたプロパティの値が同義語かどうかを判断します。
- Double Metaphone。2つ以上のレコードの指定されたプロパティの値が、ダブルメタフォンアルゴリズムに基づいて類似しているかどうかを判断します。例えば、「Smith」は「Schmidt」のように聞こえることがあります。
- Reduce。特定のマッチの重要性を低減します。例えば、2つのレコードの住所と姓がマッチする場合でも、同じ家族の2人の構成員である可能性があるため、その類似性だけでは、2つのレコードが必ずしも同じ人物を参照しているとは限りません。
- Zip。2つ以上のレコードの郵便番号がマッチするかどうかを判断します。
- Custom。カスタムモジュールで関数を実行し、2つ以上のレコードの指定されたプロパティの値を比較します。
ダイアログボックスの一連のフィールド(プロパティ)は、マッチタイプによって異なります。
マッチタイプをクリックすると、そのプロパティが表示されます。
Property to Match 値を比較するプロパティ Properties to Match 値を比較する1つあるいは複数のプロパティ Weight ルールの相対的な重要性を表す係数 Weight マッチの重みを減らす大きさを示す正の整数 Thesaurus URI MarkLogicサーバーデータベースに格納され、同義語を決定するために使用するシソーラスのロケーション。参照:シソーラスドキュメントの管理
Filter フィルタとして使用するシソーラス内のノード。例えば、
<thsr:qualifier>birds</thsr:qualifier>
.のようになります。詳細については、thsr:expandの$filterパラメータを参照してください。
5-matches-9 Boost 9桁の郵便番号と5桁の郵便番号で、郵便番号の最初の5桁がマッチした場合に使用する重み。米国の郵便番号にのみ適用されます。
9-matches-5 Weight 2つの9桁の郵便番号で、最初の5桁がマッチし、最後の4桁がマッチしない場合に使用する重み。米国の郵便番号にのみ適用されます。
注:9桁すべてがマッチする場合の重みを追加するには、Exactマッチタイプを使用して、郵便番号を文字列として比較します。一部のデータに標準外の形式が含まれている場合(一般的なハイフンではなく空白やダッシュが使用されている場合など)、郵便番号のフィールドをエンティティの標準形式にマップします。Dictionary URI データベースに格納され、単語の発音の比較時に使用される音声辞書のロケーション。参照:カスタム辞書
Distance Threshold 2つの文字列で音声の差異(距離)が無視される、つまり文字列が相互に似ていると判断されるしきい値。参照:「spell関数」
Collation 使用するコレーションのURI。コレーションは、文字列のソート順を指定します。参照:エンコーディングとコレーション
URI カスタムモジュールの場所 関数 カスタムモジュール内のカスタム関数の名前 Namespace カスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。 - [Match Thresholds]を設定します。
- 新しいしきい値を追加するには、[Add]ボタンをクリックします。
- しきい値を編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
- しきい値を削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
[Match Thresholds]のフィールド
フィールド 説明 名前 しきい値ルール名 weight マッチの総重みを比較するしきい値 アクション 総重みが[Weight]のしきい値を超えた場合の処理 - Merge。マージルールに従って候補レコードを自動的にマージします。
- Notify。人がマッチを確認し、実行するアクションを決定するための通知を送信します。
- Custom。カスタムモジュールで定義されたアクションを実行します。
URI (アクションがCustomの場合に使用できます)。カスタムモジュールの場所 関数 (アクションがCustomの場合に使用できます)。カスタムモジュール内のカスタム関数の名前 Namespace (アクションがCustomの場合に使用できます)。カスタム関数が存在するライブラリモジュールの名前空間。カスタム関数がJavaScriptコードの場合は空白です。
マージ
- 下部にあるステップの詳細パネルで、[Merging]タブをクリックします。
- [Merge Options]を設定します。
- 新しいオプションを追加するには、[Add]ボタンをクリックします。
- オプションを編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
- オプションを削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
[Merge Options]のフィールド
- [Merge Strategies]を設定します。
- 新しい方式を追加するには、[Add]ボタンをクリックします。
- 方式を編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
- 方式を削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
- [Merge Collections]を設定します。
- 新しいコレクションタグを追加するには、[Add]ボタンをクリックします。
- コレクションタグを編集するには、縦方向の省略記号(⋮)をクリックして、[Edit Settings]を選択します。
- コレクションタグを削除するには、縦方向の省略記号(⋮)をクリックして、[Delete]を選択します。
[Merge Collections]のフィールド
フィールド 説明 イベント コレクションでアクションをトリガーとするイベント。 - On Merge。マッチによってマージ(自動または手動)が行われる場合。
- On No Match。ソースデータベース/ファイル全体でマッチが見つからない場合。
- On Notification。通知が送信またはログに記録されたとき。
- On Archive。レコードがアーカイブされたとき。
Collections to Add タグのデフォルトの結合に追加する1つあるいは複数のコレクションタグ Collections to Remove タグのデフォルトの結合から削除する1つあるいは複数のコレクションタグ Collections to Set タグのデフォルトの結合を置換する1つあるいは複数のコレクションタグ