はじめに

トラックごとのツール

データハブプロセスの各タスクを実行できるツールが複数用意されています。QuickStart、Gradleタスク、データハブJava APIは最も広範な機能を提供しています。それ以外のものは範囲が限られています。

これらのツールは、3つのトラックに分類できます。

  • GUIトラック(推奨)では、データを扱う際に直感的でわかりやすい画面を利用できます。
    • QuickStartでは非GUIツールが提供しているのと同じ機能を提供します。これにより、Gradleの際には明示的に処理しなければならなかったタスクを自動的に実行できます。
  • コマンドライントラックでは、極めて一般的な処理をGUIを使うことなく素早く自動化できるようにします。
    • 広範なGradleタスクにより、さまざまなものの作成やフローの実行を自動化できます。継続的な統合環境(作成/テスト/実行が複数回実行される)においてはGradleが理想的です。
      注: Gradleを使ってフローを実行するには、データハブプロジェクトファイルを含むローカルディレクトリ内にいる必要があります。
    • 実行可能なデータハブクライアントJARは、Gradleおよびデータハブプロジェクトファイルが利用できない本番環境においてフローを実行する際の、理想的な代替方法です。ここで必要なのはJVMだけです。
  • プログラミングトラックでは、フローの実行やデータの管理・使用のためのアプリケーションを作成する際に利用可能なAPIを提供します。
    • データハブJava APIでは、自分のJavaベースのアプリケーションやJavaベースの拡張をサポートする外部のオーケストレーションシステムにおいてフローを実行できます。
    • mlcpは、ステージングデータベースへデータを読み込むもう1つの方法を提供します。
    • RESTクライアントAPIは、レコード管理およびジョブ情報抽出の機能をいくつか提供します。

タスクに応じてトラックやツールを他のものに切り替えることもできますが、コマンドライントラックからGUIトラックへの切り替えは利便性に劣る場合があります(GUIは処理を自動的に行う場合がいくつかあるため)。

トラックごとのタスク

以下の表には、各トラックごとにツールで実行できるタスクをまとめてあります。

タスク GUIトラック コマンドライントラック プログラミングトラック
プロジェクトの作成 QuickStartを使用 Gradleを使用
セキュリティ資格情報の設定 Gradleを使用
エンティティの作成

(マッピングステップで必要)

QuickStartを使用 Gradleを使用
フローの作成 QuickStartを使用 Gradleを使用
フローの設定の編集 QuickStartを使用 手作業
ステップの作成 QuickStartを使用 Gradleを使用
ステップの設定
マッピングの作成 手作業
カスタムフックの追加 手作業
フロー内のステップの管理 QuickStartを使用 手作業
フローの実行 QuickStartを使用
フロー外部でのレコードのマージ Gradleを使用 RESTクライアントAPIを使用
フロー外部でのレコードのアンマージ Gradleを使用 RESTクライアントAPIを使用
デプロイ データハブサービスへのデプロイ
再デプロイ QuickStartを使用 Gradleを使用

サンプルデータ

テスト用のサンプルデータが必要な場合は、 store-data.zipをダウンロードして解凍します。このzipファイルには、架空のボードゲーム小売店のデータファイル(CSV形式)が含まれています。