ThinkChat🤖让你学习和工作更高效,注册即送10W Token,即刻开启你的AI之旅 广告
**15、简单介绍一下hive** hive存的是和hdfs的映射关系,hive是逻辑上的数据仓库,实际操作的都是hdfs上的文件,HQL就是用sql语法来写的mr程序。 可以看做是一次写入多次读取的操作,可以看成是ETL工具。 ## 请说明hive中 Sort By,Order By,Cluster By,Distrbute By各代表什么意思。 order by:会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)。只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 sort by:不是全局排序,其在数据进入reducer前完成排序。 distribute by:按照指定的字段对数据进行划分输出到不同的reduce中。 cluster by:除了具有 distribute by 的功能外还兼具 sort by 的功能。 ## hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL语句本身就有数据倾斜; 如何避免:对于key为空产生的数据倾斜,可以对其赋予一个随机值。解决方案 1>. 参数调节: hive.map.aggr = true; hive.groupby.skewindata=true 有数据倾斜的时候进行负载均衡,当选项设定位true,生成的查询计划会有两个MR Job。第一个MR Job中,Map的输出结果集合会随机分布到Reduce中,每个Reduce做部分聚合操作,并输出结果,这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中,从而达到负载均衡的目的;第二个MR Job再根据预处理的数据结果按照Group By Key 分布到 Reduce 中(这个过程可以保证相同的 Group By Key 被分布到同一个Reduce中),最后完成最终的聚合操作。 2>. SQL 语句调节: 1)、选用join key分布最均匀的表作为驱动表。做好列裁剪和filter操作,以达到两表做join 的时候,数据量相对变小的效果。 2)、大小表Join: 使用map join让小的维度表(1000 条以下的记录条数)先进内存。在map端完成reduce. 4)、大表Join大表: 把空值的key变成一个字符串加上随机数,把倾斜的数据分到不同的reduce上,由于null 值关联不上,处理后并不影响最终结果。 5)、count distinct大量相同特殊值: count distinct 时,将值为空的情况单独处理,如果是计算count distinct,可以不用处理,直接过滤,在最后结果中加1。如果还有其他计算,需要进行group by,可以先将值为空的记录单独处理,再和其他计算结果进行union。 ## hive 如何优化 1)join 优化,尽量将小表放在 join 的左边,如果一个表很小可以采用 mapjoin 2)排序优化,order by 一个 reduce 效率低,distirbute by +sort by 也可以实现全局排序 3)使用分区,查询时可减少数据的检索,从而节省时间。 ## hive 内部表和外部表的区别? 内部表:建表时会在 hdfs 创建一个表的存储目录,增加分区的时候,会将数据复制到此 location 下,删除数据的时候,将表的数据和元数据一起删除。 外部表:一般会建立分区,增加分区的时候不会将数据移到此表的 location下,删除数据的 时候,只删除了表的元数据信息,表的数据不会删除。 hive 是如何实现分区的? 建表语句: create table tablename (id) partitioned by (dt string) 增加分区:alter table tablenname add partition (dt = ‘2016-03-06’) 删除分区:alter table tablename drop partition (dt = ‘2016-03-06’) ## 分区和分桶的区别 分区是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。 那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找 分桶是相对分区进行更细粒度的划分。分桶将整个数据内容安装某列属性值得hash值进行区分,如要按照name属性分为3个桶,就是对name属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件、 ## hive的4种排序方式 1.order by全局排序。全部数据划分到一个reduce上。与sql中的order by类似,不同的是,hive中的order by在严格模式下,必须跟limit。 2.sort by 每个mapreduce内部排序。 3.distributed by分区排序,与sql中的group by类似,常与sort by组合使用,distributed by控制map的输出在reduce中如何划分,sort by控制reduce中的数据如何排序。hive要求distributed by语句出现在sort by语句之前。 4.cluster by,当distributed by与sort by字段相同,可以用cluster by代替该组合,但cluster by 不能跟desc,asc。补充:可以这样书写select a.\* from (select \* from test cluster by id ) a order by a.id ; ![](file:///C:/Users/fzuxi/AppData/Local/Temp/msohtmlclip1/01/clip_image002.jpg)