多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
**SequenceFile:** 以二进制键值对的形式存储数据,支持三种记录存储方式。 ➢ 无压缩:io 效率较差,相比压缩,不压缩的情况下没有什么优势。 ➢ 记录级压缩:对每条记录都压缩,这种压缩效率比较一般。 ➢ 块级压缩:这里的块不同于 hdfs 中的块的概念.这种方式会将达到指定块大小的二进制数据压缩为一个块。<br/> **Avro:** 将数据定义和数据一起存储在一条消息中,其中数据定义以 JSON 格式存储,数据以二进制格式存储。Avro 标记用于将大型数据集分割成适合MapReduce 处理的子集。<br/> **RCFile:** 以列格式保存每个行组数据。它不是存储第一行然后是第二行,而是存储所有行上的第 1 列,然后是所行上的第 2 列,以此类推。<br/> **Parquet:** 是 Hadoop 的一种列存储格式,提供了高效的编码和压缩方案。