データハブサービス
独自の設定を行う代わりに、データハブプロジェクトをクラウドにデプロイできます。データハブサービス(DHS)は、事前設定されたMarkLogicクラスタを提供するクラウドベースのソリューションです。この事前設定されたクラスタでFlowを実行し、ハーモナイズされたデータを提供できます。
MarkLogicデータハブを使用して、プロジェクトをローカル(開発環境)で開発およびテストし、それをDHSクラスタ(本番環境)に導入します。
ヒント:同じデータハブプロジェクトファイルを使用する複数のサービスを使用できます。例えば、あるDHSプロジェクトをテスト環境として設定し、別のDHSプロジェクトを本番環境として設定できます。
DHS環境では、データベース、アプリケーションサーバー、およびセキュリティロールが自動的に設定されます。管理者はユーザーアカウントを作成できます。
データハブサービス(DHS)の詳細については、データハブサービスおよびDHSのドキュメントを参照してください。
データハブプロジェクトとDHSプロジェクトには、次のデフォルト設定が含まれます。
エンドポイントがプライベートの場合は、MarkLogic VPCにアクセスできる仮想プライベートクラウド(VPC)内に踏み台ホストが必要です。踏み台ホストは以下の安全な中継を行います。
- 外部環境からMarkLogicへのリクエスト
- MarkLogicからリクエスト元への結果
エンドポイントが公開されている場合は、MarkLogic VPCのピアとして設定されている任意のマシンを使用できます。
重要:データハブのQuickStartツールは、DHSでは使用できません。
開始する前に
- ローカルで設定およびテストされたデータハブプロジェクト
- プロビジョニングされたMarkLogicデータハブサービス環境
重要:データハブv5.0を使用するには、お使いのDHS環境をアップグレードするために
サポートにご連絡いただく必要があります。
- プライベートエンドポイントの場合のみ:仮想プライベートクラウド(VPC)内に要塞ホスト
- DHS管理者からの情報:
- DHSホスト名(通常はキュレーションエンドポイント)
- テスト用のRESTキュレーションエンドポイントURL(ポート番号を含む)
- 次の各ロールに関連付けられているユーザーアカウントのユーザー名とパスワード(「Creating a User(ユーザーの作成)」を参照してください)。
endpointDeveloper
endpointUser
flowDeveloper
flowOperator
手順
- データハブのプロジェクトディレクトリ全体を、エンドポイントにアクセスするマシンにコピーし、そのマシンで以下の手順を実行します。
重要:エンドポイントがプライベートの場合、このマシンは踏み台ホストでなければなりません。
- コマンドラインウィンドウを開き、データハブのプロジェクトルートディレクトリに移動します。
- プロジェクトルートで、新しい
gradle-DHS.properties
ファイルを作成します。
注:プロパティファイルに別の名前を使用する場合は、
- ファイル名の形式を
gradle-{env}.properties
にする必要があります。ここで、{env}は、環境を表す任意の文字列です。例えば、開発環境の設定をgradle-dev.properties
に保存できます。
- 以下の手順のGradleコマンドでは、-PenvironmentNameパラメータの値を{env}に忘れずに更新してください。
- 次のコードを新しいファイルにコピーします。
mlDHFVersion=YOUR_DHF_VERSION mlHost=YOUR_DHS_HOSTNAME mlIsHostLoadBalancer=true mlUsername=YOUR_FLOW_OPERATOR_USER mlPassword=YOUR_FLOW_OPERATOR_PASSWORD mlManageUsername=YOUR_FLOW_DEVELOPER_USER mlManagePassword=YOUR_FLOW_DEVELOPER_PASSWORD mlStagingAppserverName=data-hub-STAGING mlStagingPort=8010 mlStagingDbName=data-hub-STAGING mlStagingForestsPerHost=1 mlFinalAppserverName=data-hub-FINAL mlFinalPort=8011 mlFinalDbName=data-hub-FINAL mlFinalForestsPerHost=1 mlJobAppserverName=data-hub-JOBS mlJobPort=8013 mlJobDbName=data-hub-JOBS mlJobForestsPerHost=1 mlModulesDbName=data-hub-MODULES mlStagingTriggersDbName=data-hub-staging-TRIGGERS mlStagingSchemasDbName=data-hub-staging-SCHEMAS mlFinalTriggersDbName=data-hub-final-TRIGGERS mlFinalSchemasDbName=data-hub-final-SCHEMAS mlModulePermissions=flowDeveloper,read,flowDeveloper,execute,flowDeveloper,insert,flowOperator,read,flowOperator,execute,flowOperator,insert mlIsProvisionedEnvironment=true
- 値を置き換えます。
キー | 置き換える値 |
---|
mlDHFVersion | 本番環境で使用するDHFバージョン |
mlHost | DHSホストの名前 ヒント:ホスト名は、DHS最終エンドポイントのドメイン名(エンドポイントURLからhttp:// と: とポート番号を除いたもの)です。 |
| flowOperator ロールに割り当てられたユーザーアカウントのユーザー名とパスワード注:パーミッションを追加する必要がある場合は、flowDeveloper ロールに割り当てられたユーザーアカウントを使用することもできます。 |
- mlManageUsername
- mlManagePassword
| flowDeveloper ロールに割り当てられたユーザーアカウントのユーザー名とパスワード |
ml*DbName | カスタマイズされている場合は、DHSデータベースの名前 |
ml*AppserverName | カスタマイズされている場合は、DHSアプリケーションサーバーの名前 |
ml*Port | デフォルトでない場合は、DHSプロジェクトが設定されているポート |
- データハブコアモジュールをインストールします。
./gradlew hubInstallModules -PenvironmentName=DHSgradlew.bat hubInstallModules -PenvironmentName=DHS
- プロジェクトのプラグインをインストールします。
./gradlew mlLoadModules -PenvironmentName=DHSgradlew.bat mlLoadModules -PenvironmentName=DHS
- データハブ 4.0.2以降を使用している場合は、DHSデータベースにインデックスを読み込みます。
./gradlew mlUpdateIndexes -PenvironmentName=DHSgradlew.bat mlUpdateIndexes -PenvironmentName=DHS
- 読み込みステップを含むFlowを実行します。
- マッピングステップまたはマスタリングステップ、あるいはその両方を含むFlowを実行します。
./gradlew hubRunFlow -PflowName=your-flow-name -PentityName=your-entity-name -PenvironmentName=DHSgradlew.bat hubRunFlow -PflowName=your-flow-name -PentityName=your-entity-name -PenvironmentName=DHS重要:Gradleパラメータの値に空白が含まれている場合は、その値を二重引用符で囲む必要があります。値に空白が含まれていない場合は、値を引用符で囲む必要はありません。
- ドキュメントがデータベース内にあることを確認します。
- 次のURLで、
OPERATIONS-REST-ENDPOINT-URL
およびCURATION-REST-ENDPOINT-URL
を、DHS管理者から得た適切なエンドポイントURLに置き換えます。
Finalデータベース | http://OPERATIONS-REST-ENDPOINT-URL:8011/v1/search |
Stagingデータベース | http://CURATION-REST-ENDPOINT-URL:8010/v1/search |
例:http://internal-mlaas-xxx-xxx-xxx.us-west-2.elb.amazonaws.com:8011/v1/search
- Webブラウザで、いずれかのURLに移動します。
この結果は、データベース内のすべてのドキュメントのXMLリストです。このリスト内の各項目には、ドキュメントのURI、パス、その他のメタデータ、およびコンテンツのプレビューが含まれます。
次に行う手順
プロジェクトの初回アップロード後にFlowを更新する場合、gradle mlLoadModules
を再度実行してからFlowを実行することで、Flowの更新を再適用できます。