[TOC]
# Sqoop简介及安装
## 1 概述
> sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。
1) 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;
2) 导出数据:从Hadoop的文件系统中导出数据到关系数据库
![](https://box.kancloud.cn/a1c018f8af636df0216e686a8cd2c07d_409x192.png)
## 2 工作机制
> 将导入或导出命令翻译成mapreduce程序来实现
> 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制
## 3 sqoop实战及原理
### 3.1 sqoop安装
> 安装sqoop的前提是已经具备java和hadoop的环境
1) 下载并解压
~~~
最新版下载地址http://ftp.wayne.edu/apache/sqoop/1.4.6/
~~~
2) 修改配置文件
~~~
$ cd $SQOOP_HOME/conf
$ mv sqoop-env-template.sh sqoop-env.sh
~~~
> 打开sqoop-env.sh并编辑下面几行:
~~~
export HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/
export HADOOP_MAPRED_HOME=/home/hadoop/apps/hadoop-2.6.1/
export HIVE_HOME=/home/hadoop/apps/hive-1.2.1
~~~
3) 加入mysql的jdbc驱动包
~~~
cp ~/app/hive/lib/mysql-connector-java-5.1.28.jar $SQOOP_HOME/lib/
~~~
4) 验证启动
~~~
$ cd $SQOOP_HOME/bin
$ sqoop-version
~~~
> 预期的输出:
~~~
15/12/17 14:52:32 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6
Sqoop 1.4.6 git commit id 5b34accaca7de251fc91161733f906af2eddbe83
Compiled by abe on Fri Aug 1 11:19:26 PDT 2015
~~~
> 到这里,整个Sqoop安装工作完成。
## 4 Sqoop的数据导入
> “导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据(或者Avro、sequence文件等二进制数据)
### 4.1 语法
> 下面的语法用于将数据导入HDFS。
~~~
$sqoop import (generic-args) (import-args)
~~~
### 4.2 示例
1) 表数据
> 在mysql中有一个库userdb中三个表:emp, emp_add和emp_contact
> 表emp:
![](https://box.kancloud.cn/caa1a379a33b3feee09c13ba9a21acf8_437x235.png)
![](https://box.kancloud.cn/778efce8e77ff43a63850d39feb1a23a_437x501.png)
2) 导入表表数据到HDFS
> 下面的命令用于从MySQL数据库服务器中的emp表导入HDFS
~~~
$bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp --m 1
~~~
> 如果成功执行,那么会得到下面的输出。
~~~
14/12/22 15:24:54 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/22 15:24:56 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-hadoop/compile/cebe706d23ebb1fd99c1f063ad51ebd7/emp.jar
-----------------------------------------------------
O mapreduce.Job: map 0% reduce 0%
14/12/22 15:28:08 INFO mapreduce.Job: map 100% reduce 0%
14/12/22 15:28:16 INFO mapreduce.Job: Job job_1419242001831_0001 completed successfully
-----------------------------------------------------
-----------------------------------------------------
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Transferred 145 bytes in 177.5849 seconds (0.8165 bytes/sec)
14/12/22 15:28:17 INFO mapreduce.ImportJobBase: Retrieved 5 records.
~~~
> 为了验证在HDFS导入的数据,请使用以下命令查看导入的数据
~~~
$ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-00000
~~~
> emp表的数据和字段之间用逗号(,)表示。
~~~
1201, gopal, manager, 50000, TP
1202, manisha, preader, 50000, TP
1203, kalil, php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi, admin, 20000, TP
~~~
3) 导入关系表到HIVE
~~~
bin/sqoop import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --hive-import --m 1
~~~
> 导入到HDFS指定目录
> 在导入表数据到HDFS使用Sqoop导入工具,我们可以指定目标目录。
> 以下是指定目标目录选项的Sqoop导入命令的语法。
~~~
--target-dir <new or exist directory in HDFS>
~~~
> 下面的命令是用来导入emp_add表数据到'/queryresult'目录。
~~~
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--target-dir /queryresult \
--table emp --m 1
~~~
> 下面的命令是用来验证 /queryresult 目录中 emp_add表导入的数据形式。
~~~
$HADOOP_HOME/bin/hadoop fs -cat /queryresult/part-m-*
~~~
> 它会用逗号(,)分隔emp_add表的数据和字段。
~~~
1201, 288A, vgiri, jublee
1202, 108I, aoc, sec-bad
1203, 144Z, pgutta, hyd
1204, 78B, oldcity, sec-bad
1205, 720C, hitech, sec-bad
~~~
4) 导入表数据子集
> 我们可以导入表的使用Sqoop导入工具,"where"子句的一个子集。它执行在各自的数据库服务器相应的SQL查询,并将结果存储在HDFS的目标目录。
> where子句的语法如下。
~~~
--where <condition>
~~~
> 下面的命令用来导入emp_add表数据的子集。子集查询检索员工ID和地址,居住城市为:Secunderabad
~~~
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--where "city ='sec-bad'" \
--target-dir /wherequery \
--table emp_add --m 1
~~~
> 按需导入
~~~
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--target-dir /wherequery2 \
--query 'select id,name,deg from emp WHERE id>1207 and $CONDITIONS' \
--split-by id \
--fields-terminated-by '\t' \
--m 1
~~~
> 下面的命令用来验证数据从emp_add表导入/wherequery目录
~~~
$HADOOP_HOME/bin/hadoop fs -cat /wherequery/part-m-*
~~~
> 它用逗号(,)分隔 emp_add表数据和字段。
~~~
1202, 108I, aoc, sec-bad
1204, 78B, oldcity, sec-bad
1205, 720C, hitech, sec-bad
~~~
5) 增量导入
> 增量导入是仅导入新添加的表中的行的技术。
> 它需要添加‘incremental’, ‘check-column’, 和 ‘last-value’选项来执行增量导入。
> 下面的语法用于Sqoop导入命令增量选项。
~~~
--incremental <mode>
--check-column <column name>
--last value <last check column value>
~~~
> 假设新添加的数据转换成emp表如下:
> 1206, satish p, grp des, 20000, GR
> 下面的命令用于在EMP表执行增量导入。
~~~
bin/sqoop import \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp --m 1 \
--incremental append \
--check-column id \
--last-value 1205
~~~
> 以下命令用于从emp表导入HDFS emp/ 目录的数据验证。
~~~
$ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-*
~~~
> 它用逗号(,)分隔 emp_add表数据和字段。
~~~
1201, gopal, manager, 50000, TP
1202, manisha, preader, 50000, TP
1203, kalil, php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi, admin, 20000, TP
1206, satish p, grp des, 20000, GR
~~~
> 下面的命令是从表emp 用来查看修改或新添加的行
~~~
$ $HADOOP_HOME/bin/hadoop fs -cat /emp/part-m-*1
~~~
> 这表示新添加的行用逗号(,)分隔emp表的字段。
~~~
1206, satish p, grp des, 20000, GR
~~~
## 5 Sqoop的数据导出
> 将数据从HDFS导出到RDBMS数据库
> 导出前,目标表必须存在于目标数据库中。
1. 默认操作是从将文件中的数据使用INSERT语句插入到表中
2. 更新模式下,是生成UPDATE语句更新表数据
> 语法
> 以下是export命令语法。
~~~
$ sqoop export (generic-args) (export-args)
~~~
> 示例
> 数据是在HDFS 中“EMP/”目录的emp_data文件中。所述emp_data如下:
~~~
1201, gopal, manager, 50000, TP
1202, manisha, preader, 50000, TP
1203, kalil, php dev, 30000, AC
1204, prasanth, php dev, 30000, AC
1205, kranthi, admin, 20000, TP
1206, satish p, grp des, 20000, GR
~~~
1) 首先需要手动创建mysql中的目标表
~~~
$ mysql
mysql> USE db;
mysql> CREATE TABLE employee (
id INT NOT NULL PRIMARY KEY,
name VARCHAR(20),
deg VARCHAR(20),
salary INT,
dept VARCHAR(10));
~~~
2) 然后执行导出命令
~~~
bin/sqoop export \
--connect jdbc:mysql://hdp-node-01:3306/test \
--username root \
--password root \
--table emp2 \
--export-dir /user/hadoop/emp/
~~~
3) 验证表mysql命令行。
~~~
mysql>select * from employee;
~~~
> 如果给定的数据存储成功,那么可以找到数据在如下的employee表。
~~~
+------+--------------+-------------+-------------------+--------+
| Id | Name | Designation | Salary | Dept |
+------+--------------+-------------+-------------------+--------+
| 1201 | gopal | manager | 50000 | TP |
| 1202 | manisha | preader | 50000 | TP |
| 1203 | kalil | php dev | 30000 | AC |
| 1204 | prasanth | php dev | 30000 | AC |
| 1205 | kranthi | admin | 20000 | TP |
| 1206 | satish p | grp des | 20000 | GR |
+------+--------------+-------------+-------------------+--------+
~~~
## 6 Sqoop作业
> 注:Sqoop作业——将事先定义好的数据导入导出任务按照指定流程运行
> 语法
> 以下是创建Sqoop作业的语法。
~~~
$ sqoop job (generic-args) (job-args)
[-- [subtool-name] (subtool-args)]
$ sqoop-job (generic-args) (job-args)
[-- [subtool-name] (subtool-args)]
~~~
> 创建作业(--create)
> 在这里,我们创建一个名为myjob,这可以从RDBMS表的数据导入到HDFS作业。
~~~
bin/sqoop job --create myimportjob -- import --connect jdbc:mysql://hdp-node-01:3306/test --username root --password root --table emp --m 1
~~~
> 该命令创建了一个从db库的employee表导入到HDFS文件的作业。
> 验证作业 (--list)
~~~
‘--list’ 参数是用来验证保存的作业。下面的命令用来验证保存Sqoop作业的列表。
~~~
~~~
$ sqoop job --list
~~~
> 它显示了保存作业列表。
~~~
Available jobs:
myjob
~~~
> 检查作业(--show)
~~~
‘--show’ 参数用于检查或验证特定的工作,及其详细信息。以下命令和样本输出用来验证一个名为myjob的作业。
~~~
~~~
$ sqoop job --show myjob
~~~
> 它显示了工具和它们的选择,这是使用在myjob中作业情况。
~~~
Job: myjob
Tool: import Options:
----------------------------
direct.import = true
codegen.input.delimiters.record = 0
hdfs.append.dir = false
db.table = employee
...
incremental.last.value = 1206
...
~~~
> 执行作业 (--exec)
> ‘--exec’ 选项用于执行保存的作业。下面的命令用于执行保存的作业称为myjob。
~~~
$ sqoop job --exec myjob
~~~
> 它会显示下面的输出。
~~~
10/08/19 13:08:45 INFO tool.CodeGenTool: Beginning code generation
...
~~~
## 7 Sqoop的原理
### 概述
> Sqoop的原理其实就是将导入导出命令转化为mapreduce程序来执行,sqoop在接收到命令后,都要生成mapreduce程序
> 使用sqoop的代码生成工具可以方便查看到sqoop所生成的java代码,并可在此基础之上进行深入定制开发
> 代码定制
> 以下是Sqoop代码生成命令的语法:
~~~
$ sqoop-codegen (generic-args) (codegen-args)
$ sqoop-codegen (generic-args) (codegen-args)
~~~
> 示例:以USERDB数据库中的表emp来生成Java代码为例。
> 下面的命令用来生成导入
~~~
$ sqoop-codegen \
--import
--connect jdbc:mysql://localhost/userdb \
--username root \
--table emp
~~~
> 如果命令成功执行,那么它就会产生如下的输出。
~~~
14/12/23 02:34:40 INFO sqoop.Sqoop: Running Sqoop version: 1.4.5
14/12/23 02:34:41 INFO tool.CodeGenTool: Beginning code generation
……………….
14/12/23 02:34:42 INFO orm.CompilationManager: HADOOP_MAPRED_HOME is /usr/local/hadoop
Note: /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/emp.java uses or overrides a deprecated API.
Note: Recompile with -Xlint:deprecation for details.
14/12/23 02:34:47 INFO orm.CompilationManager: Writing jar file: /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/emp.jar
~~~
> 验证: 查看输出目录下的文件
~~~
$ cd /tmp/sqoop-hadoop/compile/9a300a1f94899df4a9b10f9935ed9f91/
$ ls
emp.class
emp.jar
emp.java
~~~
> 如果想做深入定制导出,则可修改上述代码文件
- hadoop
- linux基础
- Linux入门
- Linux进阶
- shell
- Zookeeper
- Zookeeper简介及部署
- Zookeeper使用及API
- Redis
- Redis简介安装部署
- Redis使用及API
- Java高级增强
- Java多线程增强
- Maven简介及搭建
- Hive
- Hive简介及安装
- Hive操作
- HIve常用函数
- Hive数据类型
- Flume
- Flume简介及安装
- flume 拦截器(interceptor)
- azkaban
- azKaban简介及安装
- Sqoop
- Sqoop简介及安装
- HDFS
- HDFS原理
- HDFS操作API
- MAPREDUCE原理
- MAPREDUCE图片资源
- MAPREDUCE加强
- HBASE
- HBASE简介及安装
- HBASE操作及API
- HBASE内部原理
- Storm
- Storm简介及安装
- Storm原理
- kafka
- kafka简介及安装
- kafka常用操作及API
- kafka原理
- kafka配置详解
- Scala
- Scala简介及安装
- Scala基础语法
- Scala实战