datapipeline

Data Pipeline Hands-on

今回は事前に用意したpipelineのテンプレートをインポートし、Data Pieplineの機能を触って

Data Pipeline CLIをインストール

Data Pipeline CLIを使ってpipelineの作成や管理ができます。

依存環境をインストール

Rubyが必要です。Rubyがインストールされていない環境は、こちらの手順でRubyのインストールとセットアップを行います。

インストールには時間がかかりますので、LinuxのEC2インスタンスを起動して作業すると早いのでおすすめします。

CLIインストール

Data Pipeline Command Line Toolをダウンロードし、解凍する。

下記内容の認証情報ファイルを作成

$ vi ~/.aws/dp-config.json

{
  "access-id": "access_key_id",
  "private-key": "secret_access_key",
  "endpoint": "https://datapipeline.us-east-1.amazonaws.com",
  "region": "us-east-1",
  "log-uri": "s3://myawsbucket/logfiles"
}

インポート用のjsonファイルを編集

$ vi dp-bigdata-bootcamp.json

編集する項目:

s3://MY_BUCKET (数箇所)
MY_KEY_PAIR
MY_SG

Import Pipeline

$ datapipeline --credentials ~/.aws/dp-config.json --create bigdata-bootcamp --put dp-bigdata-bootcamp.json

Data Pipelineコンソールからインポートしたpipelineを確認し、activateさせる。コンソールにて、pipelineによって起動されたEMRクラスタや、Redshiftのテーブルにロードされたデータを確認。

EMRクラスタはEMRコンソールで確認します。Redshiftデータは作業用EC2のPostgreSQLコマンドで確認します。

Name		Name	Last commit message	Last commit date
parent directory ..
README.md		README.md
dp-bigdata-bootcamp.json		dp-bigdata-bootcamp.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Files

datapipeline

datapipeline

README.md

Data Pipeline Hands-on

Data Pipeline CLIをインストール

依存環境をインストール

CLIインストール

インポート用のjsonファイルを編集

Import Pipeline

Files

datapipeline

Directory actions

More options

Directory actions

More options

Latest commit

History

datapipeline

Folders and files

parent directory

README.md

Data Pipeline Hands-on

Data Pipeline CLIをインストール

依存環境をインストール

CLIインストール

インポート用のjsonファイルを編集

Import Pipeline