MarkLogicデータハブ5.0:リリースノード
データハブ5.0.4
バグ修正。
データハブ5.0.3
データハブ5.0.3には、以下のような新機能および変更があります。
出自の「オフ」設定
出自は完全にオフにできます。フロー定義ファイル内で"provenanceGranularityLevel" : "off"
と設定してください。
詳細は、「手作業による出自の粒度の設定」を参照してください。
パフォーマンスの改善
マスタリングステップのパフォーマンスが大幅に改善されました。
データハブ5.0.2
データハブ5.0.2には、以下のような新機能および変更があります。
エンティティのベースURIが必須に
以前のバージョンでは、エンティティのベースURIはオプションでした(エンティティサービスでは今でもオプションです)。
これ以降、データハブはベースURIのプロパティを検証します。またこのプロパティは必須となります。これは、http://example.org/の形式になっている必要があります。
既存のエンティティ定義にベースURIのプロパティを追加するには、以下のようにします。
- QuickStartでエンティティを編集します。あるいは
- your-project-root/entities内のエンティティ定義ファイルを手作業で編集し、
baseUri
プロパティを追加します。{ "info" : { "title" : "MyEntity", "version" : "0.0.1", "baseUri" : "http://example.org/" }, "definitions" : { ... } }
エンティティサービス形式への準拠
手作業で作成・修正されたエンティティ定義は、エンティティサービスドキュメントで定義されている形式への準拠が必要になりました(データハブで必要なベースURIを除く)。
QuickStartで作成・修正したエンティティはすでにこれに準拠しています。
Gradleタスク「hubCreateStepDefinition」におけるXQueryモジュールのサポート
GradleタスクhubCreateStepDefinitionで、新しいオプションformat
を指定できるようになりました。xqy
に設定した場合(例:-Pformat=xqy
)、データハブはカスタマイズ可能なXQueryサンプルモジュールおよびJavaScriptラッパーを生成します。このXQueryモジュールは、エンベロープ内の各部分(headers、instance、triples)にスタブメソッドがあるサンプルのエンベロープを作成します。
詳細は、「hubCreateStepDefinition」を参照してください。
mlcpでの読み込みがさらに容易に
マッピング/マスタリング/カスタムステップにおけるよりきめ細かい出自トラッキング
デフォルトでは、データハブの各ステップでは、ドキュメントレベルの出自情報が捕捉されます。今バージョンより、マッピング/マスタリング/カスタムステップにおいてプロパティレベルの出自情報をトラッキングできるようになりました。詳細は、手作業による出自の粒度の設定を参照してください。
プロパティレベルの出自情報をトラッキングした場合、データハブはマッピングあるいはマージされたコンテンツディスクリプタに出自(provenance)プロパティが追加されます。これは元のドキュメントのプロパティの情報、および新規ドキュメントにおけるこれらのドキュメントプロパティの場所をトラッキングするものです。これにより、マッピング/マージングされた各ドキュメントに対して複数の出自ドキュメントが作成されます。
またカスタムステップにおいて、特定のプロパティレベルの出自をトラッキングすることもできます。詳細は、「カスタムステップにおける出自」を参照してください。
データハブ5.0.1
データハブ5.0.1では、安定性およびユーザービリティが改善されています。またバグ修正もあります。
データハブ5.0.0
データハブ5.0.0には、以下のような新機能および変更があります。
新しいフロー/ステップのアーキテクチャ
MarkLogicデータハブにスマートマスタリングを導入
データハブは、MarkLogicスマートマスタリング技術によりマスタリングステップにおいて同一のエンティティに関連するレコードをマージできるようになりました。
QuickStartを使うと、エンティティモデルに基づいてこの新機能のマッチ&マージオプションを設定できます。
ステップの出自情報
詳細な出自情報は、すべての種類のステップ(読み込み、マッピング、マスタリング、カスタム)において自動的にトラッキングされます。出自情報には、以下のような内容が含まれています。
- このエンティティインスタンスが作成されたのはいつか。
- このエンティティインスタンスを作成したステップはどれか。
- このエンティティインスタンスを作成したフローはどれか。
- このエンティティインスタンスを作成したユーザーは誰か。
スキーマのデプロイの変更
- (旧)hub-internal-config/schemas
- (新)ml-config/databases/mlStagingSchemasDbName/schemas。ここでmlStagingSchemasDbNameは、gradle.properties内のmlStagingSchemasDbName値です(指定されている場合)。デフォルトは、ml-config/databases/data-hub-STAGING-SCHEMAS/schemasです。
- ディレクトリ名をml-config/databases/new-staging-schemas-db-name/schemasに変更します。
- gradle.propertiesのmlStagingSchemasDbNameの値を更新します。
この変更は、ml-gradleのステージングschemasディレクトリパスの仕様と合わせるためのものです。
マッピングとエンティティ
カスタマイズをシンプルにするため、QuickStartではマッピング情報をJSONファイルとして格納します(生成されたコードではなく)。このマッピング設定ファイルは、(プロジェクトのルート)/mappingsディレクトリにあります。
同様に、エンティティ設定ファイルは、(プロジェクトのルート)/entitiesディレクトリに移動されました。