Skip to content

Files

Failed to load latest commit information.

Latest commit

 Cannot retrieve latest commit at this time.

History

History
 
 

datapipeline

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

Data Pipeline Hands-on

今回は事前に用意したpipelineのテンプレートをインポートし、Data Pieplineの機能を触って

Data Pipeline CLIをインストール

Data Pipeline CLIを使ってpipelineの作成や管理ができます。

依存環境をインストール

Rubyが必要です。Rubyがインストールされていない環境は、こちらの手順でRubyのインストールとセットアップを行います。

インストールには時間がかかりますので、LinuxのEC2インスタンスを起動して作業すると早いのでおすすめします。

CLIインストール

Data Pipeline Command Line Toolをダウンロードし、解凍する。

下記内容の認証情報ファイルを作成

$ vi ~/.aws/dp-config.json

{
  "access-id": "access_key_id",
  "private-key": "secret_access_key",
  "endpoint": "https://datapipeline.us-east-1.amazonaws.com",
  "region": "us-east-1",
  "log-uri": "s3://myawsbucket/logfiles"
}

インポート用のjsonファイルを編集

$ vi dp-bigdata-bootcamp.json

編集する項目:

  • s3://MY_BUCKET (数箇所)
  • MY_KEY_PAIR
  • MY_SG

Import Pipeline

$ datapipeline --credentials ~/.aws/dp-config.json --create bigdata-bootcamp --put dp-bigdata-bootcamp.json

Data Pipelineコンソールからインポートしたpipelineを確認し、activateさせる。コンソールにて、pipelineによって起動されたEMRクラスタや、Redshiftのテーブルにロードされたデータを確認。

EMRクラスタはEMRコンソールで確認します。Redshiftデータは作業用EC2のPostgreSQLコマンドで確認します。