はじめに
トラックごとのツール
データハブプロセスの各タスクを実行できるツールが複数用意されています。QuickStart、Gradleタスク、データハブJava APIは最も広範な機能を提供しています。それ以外のものは範囲が限られています。
これらのツールは、3つのトラックに分類できます。
- GUIトラック(推奨)では、データを扱う際に直感的でわかりやすい画面を利用できます。
- QuickStartでは非GUIツールが提供しているのと同じ機能を提供します。これにより、Gradleの際には明示的に処理しなければならなかったタスクを自動的に実行できます。
- コマンドライントラックでは、極めて一般的な処理をGUIを使うことなく素早く自動化できるようにします。
- 広範なGradleタスクにより、さまざまなものの作成やフローの実行を自動化できます。継続的な統合環境(作成/テスト/実行が複数回実行される)においてはGradleが理想的です。注: Gradleを使ってフローを実行するには、データハブプロジェクトファイルを含むローカルディレクトリ内にいる必要があります。
- 実行可能なデータハブクライアントJARは、Gradleおよびデータハブプロジェクトファイルが利用できない本番環境においてフローを実行する際の、理想的な代替方法です。ここで必要なのはJVMだけです。
- 広範なGradleタスクにより、さまざまなものの作成やフローの実行を自動化できます。継続的な統合環境(作成/テスト/実行が複数回実行される)においてはGradleが理想的です。
- プログラミングトラックでは、フローの実行やデータの管理・使用のためのアプリケーションを作成する際に利用可能なAPIを提供します。
- データハブJava APIでは、自分のJavaベースのアプリケーションやJavaベースの拡張をサポートする外部のオーケストレーションシステムにおいてフローを実行できます。
- mlcpは、ステージングデータベースへデータを読み込むもう1つの方法を提供します。
- RESTクライアントAPIは、レコード管理およびジョブ情報抽出の機能をいくつか提供します。
タスクに応じてトラックやツールを他のものに切り替えることもできますが、コマンドライントラックからGUIトラックへの切り替えは利便性に劣る場合があります(GUIは処理を自動的に行う場合がいくつかあるため)。
トラックごとのタスク
以下の表には、各トラックごとにツールで実行できるタスクをまとめてあります。
タスク | GUIトラック | コマンドライントラック | プログラミングトラック |
---|---|---|---|
プロジェクトの作成 | QuickStartを使用 | Gradleを使用 | |
セキュリティ資格情報の設定 | Gradleを使用 | ||
エンティティの作成 (マッピングステップで必要) |
QuickStartを使用 | Gradleを使用 | |
フローの作成 | QuickStartを使用 | Gradleを使用 | |
フローの設定の編集 | QuickStartを使用 | 手作業 | |
ステップの作成 | QuickStartを使用 | Gradleを使用 | |
ステップの設定 | |||
マッピングの作成 | 手作業 | ||
カスタムフックの追加 | 手作業 | ||
フロー内のステップの管理 | QuickStartを使用 | 手作業 | |
フローの実行 | QuickStartを使用 | ||
フロー外部でのレコードのマージ | Gradleを使用 | RESTクライアントAPIを使用 | |
フロー外部でのレコードのアンマージ | Gradleを使用 | RESTクライアントAPIを使用 | |
デプロイ | データハブサービスへのデプロイ | ||
再デプロイ | QuickStartを使用 | Gradleを使用 |
サンプルデータ
テスト用のサンプルデータが必要な場合は、 store-data.zipをダウンロードして解凍します。このzipファイルには、架空のボードゲーム小売店のデータファイル(CSV形式)が含まれています。