增量导入 · 大数据

[TOC] # 增量导入增量导入是仅导入新添加的表中的行的技术。它需要添加`‘incremental’, ‘check-column’, `和` ‘last-value’`选项来执行增量导入。下面的语法用于Sqoop导入命令增量选项。 ~~~ --incremental <mode> --check-column <column name> --last value <last check column value> ~~~ 假设新添加的数据转换成emp表如下： `1206, satish p, grp des, 20000, GR` 下面的命令用于在emp表执行增量导入。 ~~~ bin/sqoop import \ --connect jdbc:mysql://localhost:3306/userdb \ --username root \ --password root \ --table emp --m 1 \ --target-dir /emp_append \ --incremental append \ --check-column id \ --last-value 1203 ~~~ `--incremental append`表示要增量导入 `--check-column id`表示要按照那一列增量导入 `--last-value 1203`上一列的值是1203,表示这次是从这个往后面以下命令用于从emp表导入HDFS emp/ 目录的数据验证。 ~~~ $ $HADOOP_HOME/bin/hadoop fs -cat /user/root/emp/part-m-* ~~~ 它用逗号(,)分隔 emp_add表数据和字段。 ~~~ 1201, gopal, manager, 50000, TP 1202, manisha, preader, 50000, TP 1203, kalil, php dev, 30000, AC 1204, prasanth, php dev, 30000, AC 1205, kranthi, admin, 20000, TP 1206, satish p, grp des, 20000, GR ~~~ 下面的命令是从表emp 用来查看修改或新添加的行 ~~~ $ $HADOOP_HOME/bin/hadoop fs -cat /emp_append/part-m-*1 ~~~ 这表示新添加的行用逗号（，）分隔emp表的字段。 ~~~ 1206, satish p, grp des, 20000, GR ~~~