MarkLogicデータハブ5.0:リリースノード

データハブ5.0.4

バグ修正。

データハブ5.0.3

データハブ5.0.3には、以下のような新機能および変更があります。

出自の「オフ」設定

出自は完全にオフにできます。フロー定義ファイル内で"provenanceGranularityLevel" : "off"と設定してください。

注意:プロジェクトにおいて絶対に出自情報を使用することはないという確信がある場合以外は、出自をオフにしないでください。

詳細は、「手作業による出自の粒度の設定」を参照してください。

パフォーマンスの改善

マスタリングステップのパフォーマンスが大幅に改善されました。

データハブ5.0.2

データハブ5.0.2には、以下のような新機能および変更があります。

エンティティのベースURIが必須に

以前のバージョンでは、エンティティのベースURIはオプションでした(エンティティサービスでは今でもオプションです)。

これ以降、データハブはベースURIのプロパティを検証します。またこのプロパティは必須となります。これは、http://example.org/の形式になっている必要があります。

既存のエンティティ定義にベースURIのプロパティを追加するには、以下のようにします。

  • QuickStartでエンティティを編集します。あるいは
  • your-project-root/entities内のエンティティ定義ファイルを手作業で編集し、baseUriプロパティを追加します。
       {
        "info" : {
          "title" : "MyEntity",
          "version" : "0.0.1",
          "baseUri" : "http://example.org/"
        },
        "definitions" : {
          ...
        }
      }
    
重要:アプリケーションにおいて複数のエンティティ定義を使用する場合、使用されるエンティティ定義のそれぞれに対して有効なベースURIを提供する必要があります。これをしなかった場合、エンティティ定義をMarkLogicに読み込もうとするとエラーが発生します。
ヒント:互いに関連性のあるエンティティには、同一のベースURIを使用します。
エンティティサービス形式への準拠

手作業で作成・修正されたエンティティ定義は、エンティティサービスドキュメントで定義されている形式への準拠が必要になりました(データハブで必要なベースURIを除く)。

QuickStartで作成・修正したエンティティはすでにこれに準拠しています。

Gradleタスク「hubCreateStepDefinition」におけるXQueryモジュールのサポート

GradleタスクhubCreateStepDefinitionで、新しいオプションformatを指定できるようになりました。xqyに設定した場合(例:-Pformat=xqy)、データハブはカスタマイズ可能なXQueryサンプルモジュールおよびJavaScriptラッパーを生成します。このXQueryモジュールは、エンベロープ内の各部分(headers、instance、triples)にスタブメソッドがあるサンプルのエンベロープを作成します。

詳細は、「hubCreateStepDefinition」を参照してください。

mlcpでの読み込みがさらに容易に

Quickstartの読み込みステップのステップ詳細画面に、mlcpコマンドが表示されるようになりました。ここにはUIで設定した情報が事前に入力されています。



mlcpでデータを読み込むには、QuickStartに表示されたmlcpコマンドをコピーし、コマンドラインウィンドウに貼り付けます。

確認事項:このコマンドを実行する前に、パスワードの値を適切なものに置き換えてください。
マッピング/マスタリング/カスタムステップにおけるよりきめ細かい出自トラッキング

デフォルトでは、データハブの各ステップでは、ドキュメントレベルの出自情報が捕捉されます。今バージョンより、マッピング/マスタリング/カスタムステップにおいてプロパティレベルの出自情報をトラッキングできるようになりました。詳細は、手作業による出自の粒度の設定を参照してください。

プロパティレベルの出自情報をトラッキングした場合、データハブはマッピングあるいはマージされたコンテンツディスクリプタに出自(provenance)プロパティが追加されます。これは元のドキュメントのプロパティの情報、および新規ドキュメントにおけるこれらのドキュメントプロパティの場所をトラッキングするものです。これにより、マッピング/マージングされた各ドキュメントに対して複数の出自ドキュメントが作成されます。

またカスタムステップにおいて、特定のプロパティレベルの出自をトラッキングすることもできます。詳細は、「カスタムステップにおける出自」を参照してください。

データハブ5.0.1

データハブ5.0.1では、安定性およびユーザービリティが改善されています。またバグ修正もあります。

データハブ5.0.0

データハブ5.0.0には、以下のような新機能および変更があります。

新しいフロー/ステップのアーキテクチャ

MarkLogicデータハブ v5.0では、フローはデータを処理する一連のステップとして再定義されています。

基本的なユースケース用のテンプレートが提供されています。より複雑な状況に応じてこれをカスタマイズできます。

4.xからアップグレードしている場合、昔の4.xフローをGradleタスクhubRunLegacyFlowで実行可能です。しかしこれをQuickStart内で表示・編集したい場合は、5.0フローに変換する必要があります。

MarkLogicデータハブにスマートマスタリングを導入

データハブは、MarkLogicスマートマスタリング技術によりマスタリングステップにおいて同一のエンティティに関連するレコードをマージできるようになりました。

QuickStartを使うと、エンティティモデルに基づいてこの新機能のマッチ&マージオプションを設定できます。

ステップの出自情報

詳細な出自情報は、すべての種類のステップ(読み込み、マッピング、マスタリング、カスタム)において自動的にトラッキングされます。出自情報には、以下のような内容が含まれています。

  • このエンティティインスタンスが作成されたのはいつか。
  • このエンティティインスタンスを作成したステップはどれか。
  • このエンティティインスタンスを作成したフローはどれか。
  • このエンティティインスタンスを作成したユーザーは誰か。
スキーマのデプロイの変更
ローカルのschemasディレクトリ(後でschemasデータベースにデプロイできるスキーマを含む)が変更されました。
  • (旧)hub-internal-config/schemas
  • (新)ml-config/databases/mlStagingSchemasDbName/schemas。ここでmlStagingSchemasDbNameは、gradle.properties内のmlStagingSchemasDbName値です(指定されている場合)。デフォルトは、ml-config/databases/data-hub-STAGING-SCHEMAS/schemasです。
後からステージングのschemasデータベースの名前を変更した場合、以下を行う必要があります。
  • ディレクトリ名をml-config/databases/new-staging-schemas-db-name/schemasに変更します。
  • gradle.propertiesmlStagingSchemasDbNameの値を更新します。

この変更は、ml-gradleのステージングschemasディレクトリパスの仕様と合わせるためのものです。

マッピングとエンティティ

カスタマイズをシンプルにするため、QuickStartではマッピング情報をJSONファイルとして格納します(生成されたコードではなく)。このマッピング設定ファイルは、(プロジェクトのルート)/mappingsディレクトリにあります。

同様に、エンティティ設定ファイルは、(プロジェクトのルート)/entitiesディレクトリに移動されました。

重要:データハブ v5.0のデータハブサービスにデプロイする場合、データハブ v5.0用にDHS環境をアップグレードする必要があります。この際、必ずサポートにお問い合わせください。