データハブ Gradleタスク
データハブのGradleプラグイン(ml-data-hub)で使用可能なGradleタスク。
データハブ内でのGradleの使用 データハブ
データハブフロー内でデータハブGradleプラグインを使用する方法については、データハブGradleプラグインを参照してください。
パラメータをGradleタスクに渡すには、-Pオプションを使用します。
Gradleの-i
オプションを使ってinfoレベルのロギングができます。
ml
で始まる名前のタスクは、ml-gradle実装用のものをデータハブ用にカスタマイズしたものです。hub
で始まる名前のタスクは、特にデータハブ用に作成されたものです。
gradle tasks
を実行すると、使用可能なGradleタスクすべてとその詳細な説明が表示されます。MarkLogicデータハブのセットアップタスク
これらのタスクは、MarkLogicデータハブの設定と管理に使用します。
(オンプレミスのみ)データハブプロジェクトをデータハブインスタンスにデプロイするには、hubPreinstallCheck
を使用してください。
データハブサービス(DHS)クラウドインスタンスをデプロイするには、hubDeployあるいはそのバリエーションを使用します。
(DHSクラウドのみ)モジュールやその他のリソースをMarkLogicサーバーにインストールします。(データハブ 5.2以降)
ユーザーアカウントに割り当てられたロールに基づき、適切なhubDeployタスクを使ってさまざまなアセットをデプロイできます。
ロール: | 以下のGradleタスクを使用する | デプロイするもの |
---|---|---|
data-hub-developer |
|
|
data-hub-security-admin |
|
|
data-hub-developerおよびdata-hub-security-adminの両方 |
|
詳細は、ユーザーとロールを参照してください。
オンプレミスのデータハブインスタンスをデプロイするには、mlDeployを使用します。
データハブ固有のフォルダ(plugins
およびentity-config
)内の内のモジュールを監視することで、ml-gradleのWatchTaskを拡張します。
フォレストを作成または更新せずに、すべてのデータベースのプロパティを更新します。データベースのプロパティの多くは、インデックス付けに関連するものです。
データハブインスタンスを新しいバージョンに更新します。
hubUpdate
タスクを実行する前に、build.gradle
ファイルを編集します。plugins
にある'com.marklogic.ml-data-hub’バージョンの値を新しいデータハブのバージョンに変更します。
plugins {
id 'com.marklogic.ml-data-hub' version '5.2.0'
}
新しいバージョンのデータハブにアップグレードする詳細な手順については、「データハブのアップグレード」を参照してください。
-iオプション(infoモード)を使用してhubUpdateタスクを実行すると、タスクの詳細(変更された設定など)が表示されます。
データハブ設定に関する基本情報を出力します。
エンティティやマッピングなどのユーザーアーティファクトがMarkLogicサーバーにインストールされます。(データハブ 4.2以降)
MarkLogicデータハブのスキャフォールディングタスク
これらのタスクにより、プロジェクト、エンティティ、フロー、およびステップのスキャフォールディングを実行できます。
現在のディレクトリをデータハブプロジェクトとして初期化します。
ボイラープレートのエンティティを作成します。
- entityName
- (必須)作成するエンティティの名前。
ボイラープレートのフロー定義ファイルを作成します。
- flowName
- (必須)作成するフローの名前。
ステップとしてフローに追加できるカスタムのステップ定義を作成します。
- stepDefName
- (必須)作成するカスタムステップ定義の名前。
- stepDefType
- 作成するステップ定義のタイプ。
ingestion
、mapping
、mastering
、custom
です。デフォルトはcustom
です。 - format
- 新規ステップ定義に関連付けられたモジュールの形式です。
xqy
(XQuery用)あるいはsjs
(JavaScript)です。デフォルトはsjs
です。
JavaScriptモジュール(main.sjs)が生成され、このステップで必要な処理を実行するためのステップ定義に関連付けられます。
-Pformat=sjs
の場合、あるいはオプションが指定されていない場合、main.sjsファイルだけが作成されます。この中にステップで必要な処理が含まれています。-Pformat=xqy
の場合、ファイルが2つ作成されます。- lib.xqyは、カスタマイズの対象となるXQueryモジュールです。このステップに必要な処理が含まれています。例えば、エンベロープを作成するカスタムコードなどです。
- main.sjsは、lib.xqyをラップするものです。
これらのモジュールは、your-project-root/src/main/ml-modules内にあります。
hubCreateFlow
で作成されたフロー内のステップのサンプルを適宜修正してください。ステップのサンプルでは、事前定義されたdefault-ingestion
、default-mapping
、default-mastering
というステップ定義を使用します。新しく作成する必要はありません。個人情報(PII)として指定されたエンティティプロパティを保護するためのセキュリティ設定ファイルを生成します。詳細は、「個人情報の管理」を参照してください。
MarkLogicデータハブのフロー管理タスク
こうしたタスクでは、フローを実行してクリーンアップできます。
フローを実行します。
- flowName
- (必須)実行するハーモナイズフローの名前。
- entityName
- (フローにマッピングステップが含まれている場合に必須)マッピングステップで使用するエンティティの名前。
- batchSize
- バッチに含める項目の数。デフォルトは100です。
- threadCount
- 実行するスレッドの数。デフォルトは4です。
- showOptions
true
の場合、コマンドに渡されたオプションが出力されます。デフォルトはfalse
です。- failHard
true
場合、ステップが失敗するとすぐにフローの実行が終了します。デフォルトはfalse
です。- steps
- 実行するステップ番号(カンマ区切りで指定)。指定していない場合は、フロー全体が実行されます。
- jobId
- このフローの実行に対応付けられた一意のジョブID。このオプションは、フローの実行がより大きなプロセスの一部である場合に使用できます(例えば、NiFiが独自のジョブ/プロセスIDによりオーケストレーションしたプロセスなど)。既存のデータハブのジョブIDと同じにすることはできません。指定していない場合は、一意のデータハブジョブIDが割り当てられます。
- options
- キー/バリューペアを含むJSON構造が、カスタムパラメータとしてステップモジュールに渡されます。
- optionsFile
- キー/バリューペアを含むJSONファイルへのパスが、カスタムパラメータとしてステップモジュールに渡されます。
ステップモジュールに渡されたカスタムキー/バリューパラメータは、ステップモジュール内の$options(xqy)あるいはoptions(sjs)変数を通じて使用できます。
ジョブレコードをエクスポートします。このタスクは、ステージングデータベースまたはファイナルデータベースのコンテンツには影響しません。
- jobIds
- エクスポートするジョブIDのカンマ区切りリスト。
- filename
- 生成するzipファイルの名前(ファイル拡張子を含む)。デフォルトは
jobexport.zip
です。
ジョブレコードを削除します。このタスクは、ステージングデータベースまたはファイナルデータベースのコンテンツには影響しません。
- jobIds
- (必須)削除するジョブIDのカンマ区切りリスト。
MarkLogicデータハブのレコード管理タスク
これらのタスクでは、特定のレコードに対してフロー外でアクションを実施できます。
指定されたマスタリングステップの設定に基づき、指定されたレコードをマージします。
- mergeURIs
- (必須) マージするレコードのURIのカンマ区切りのリスト。
- flowName
- (必須) マスタリングステップを含むフローの名前。
- ステップ
- 指定されたフロー内のマスタリングステップのステップ番号。このタスクでは、マスタリングステップ内の設定を使用します。デフォルトは1です。つまりフロー内の最初のステップがマスタリングステップです。
- preview
true
の場合、データベースには何も変更が加えられず、マージ済みレコードがシミュレーションとして返されます。それ以外の場合は、マージ済みレコードがデータベースに保存されます。デフォルトはfalse
です。- options
- 指定されたマスタリングステップ内の設定を上書きするマスタリングステップを含むJSON形式の文字列です。デフォルトは、
{}
です。
指定されたマージ済みレコードを作成した一連のマージをリバースします。
- mergeURI
- (必須) アンマージするレコードのURI。
- retainAuditTrail
true
の場合、マージ済みレコードはアーカイブコレクションに移動されます。それ以外の場合は、削除されます。デフォルトは、true
です。- blockFutureMerges
true
の場合、コンポーネント(マージ元)のレコードは再度マージされることがなくなります。デフォルトは、true
です。
MarkLogicデータハブのアンインストールタスク
(オンプレミスのみ)データハブおよびプロジェクトに関するあらゆるコンポーネントをMarkLogicサーバーから削除します(データベース、アプリケーションサーバー、フォレスト、ユーザーなど)。
データハブインスタンスがDHS(クラウド)上にデプロイされている場合、サポートに連絡して、プロジェクトのコンポーネントを削除するように依頼してください。サポートへのコンタクト
以前の(DHF 4.x)タスク
以前(DHF 4.x)の入力フローを作成します。結果として得られるDHF 4.xFlowは、hubRunLegacyFlowを使用して実行する必要があります。
- entityName
- (必須)フローを所有するエンティティの名前。
- flowName
- (必須)作成する入力フローの名前。
- dataFormat
xml
あるいはjson
。デフォルトはjson
です。- pluginFormat
xqy
あるいはsjs
。プラグインプログラミング言語。
以前(DHF 4.x)のハーモナイズフローを作成します。結果として得られるDHF 4.xFlowは、hubRunLegacyFlowを使用して実行する必要があります。
- entityName
- (必須)フローを所有するエンティティの名前。
- flowName
- (必須)作成するハーモナイズフローの名前。
- dataFormat
xml
あるいはjson
。デフォルトはjson
です。- pluginFormat
xqy
あるいはsjs
。プラグインプログラミング言語。- mappingName
- コード生成の際に使用されるモデル対モデルのマッピングの名前です。
レガシーのDHF 4.xのハーモナイズフローを実行します。
- entityName
- (必須)ハーモナイズフローを含むエンティティの名前。
- flowName
- (必須)実行するハーモナイズフローの名前。
- batchSize
- バッチに含める項目の数。デフォルトは100です。
- threadCount
- 実行するスレッドの数。デフォルトは4です。
- sourceDB
- 実行の対象となるデータベースの名前。デフォルトは使用するステージングデータベースの名前です。
- destDB
- ハーモナイズされた結果を入れるデータベースの名前。デフォルトは使用するファイナルデータベースの名前です。
- showOptions
- このコマンドに渡されたオプションを出力するかどうかを指定します。デフォルトは
false
です。 - dhf.YourKey
- キーに関連付けられた値です。これらのキー/バリューのペアは、カスタムパラメータとしてフローに渡されます。追加のキー/バリューペアを別のオプションとして渡すこともできます。
hubrunlegacyflow ...-Pdhf.YourKeyA=YourValueA -Pdhf.YourKeyB=YourValueB ...
ステップモジュールに渡されたカスタムキー/バリューパラメータは、ステップモジュール内の$options(xqy)あるいはoptions(sjs)変数を通じて使用できます。