hive · 要努力

**15、简单介绍一下hive** hive存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的文件，HQL就是用sql语法来写的mr程序。可以看做是一次写入多次读取的操作，可以看成是ETL工具。 ## 请说明hive中 Sort By，Order By，Cluster By，Distrbute By各代表什么意思。 order by：会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）。只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 sort by：不是全局排序，其在数据进入reducer前完成排序。 distribute by：按照指定的字段对数据进行划分输出到不同的reduce中。 cluster by：除了具有 distribute by 的功能外还兼具 sort by 的功能。 ## hive表关联查询，如何解决数据倾斜的问题? 倾斜原因： map输出数据按key Hash的分配到reduce中，由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; 如何避免：对于key为空产生的数据倾斜，可以对其赋予一个随机值。解决方案 1>. 参数调节： hive.map.aggr = true； hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡，当选项设定位true,生成的查询计划会有两个MR Job。第一个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中，从而达到负载均衡的目的；第二个MR Job再根据预处理的数据结果按照Group By Key 分布到 Reduce 中（这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中），最后完成最终的聚合操作。 2>. SQL 语句调节： 1)、选用join key分布最均匀的表作为驱动表。做好列裁剪和filter操作，以达到两表做join 的时候，数据量相对变小的效果。 2)、大小表Join：使用map join让小的维度表（1000 条以下的记录条数）先进内存。在map端完成reduce. 4)、大表Join大表：把空值的key变成一个字符串加上随机数，把倾斜的数据分到不同的reduce上，由于null 值关联不上，处理后并不影响最终结果。 5)、count distinct大量相同特殊值: count distinct 时，将值为空的情况单独处理，如果是计算count distinct，可以不用处理，直接过滤，在最后结果中加1。如果还有其他计算，需要进行group by，可以先将值为空的记录单独处理，再和其他计算结果进行union。 ## hive 如何优化 1）join 优化，尽量将小表放在 join 的左边，如果一个表很小可以采用 mapjoin 2)排序优化，order by 一个 reduce 效率低，distirbute by +sort by 也可以实现全局排序 3）使用分区，查询时可减少数据的检索，从而节省时间。 ## hive 内部表和外部表的区别？内部表：建表时会在 hdfs 创建一个表的存储目录，增加分区的时候，会将数据复制到此 location 下，删除数据的时候，将表的数据和元数据一起删除。外部表：一般会建立分区，增加分区的时候不会将数据移到此表的 location下，删除数据的时候，只删除了表的元数据信息，表的数据不会删除。 hive 是如何实现分区的？建表语句： create table tablename (id) partitioned by (dt string) 增加分区：alter table tablenname add partition (dt = ‘2016-03-06’) 删除分区：alter table tablename drop partition (dt = ‘2016-03-06’) ## 分区和分桶的区别分区是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分，如要按照name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件，取模为1的数据存放到一个文件，取模为2的数据存放到一个文件、 ## hive的4种排序方式 1.order by全局排序。全部数据划分到一个reduce上。与sql中的order by类似，不同的是，hive中的order by在严格模式下，必须跟limit。 2.sort by 每个mapreduce内部排序。 3.distributed by分区排序，与sql中的group by类似，常与sort by组合使用，distributed by控制map的输出在reduce中如何划分，sort by控制reduce中的数据如何排序。hive要求distributed by语句出现在sort by语句之前。 4.cluster by，当distributed by与sort by字段相同，可以用cluster by代替该组合，但cluster by 不能跟desc，asc。补充：可以这样书写select a.\* from (select \* from test cluster by id ) a order by a.id ; ![](file:///C:/Users/fzuxi/AppData/Local/Temp/msohtmlclip1/01/clip_image002.jpg)