多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
文本文件通常采用 CSV、JSON 等固度长度的纯文本格式。 **存储方式:行存储**。HDFS 自带的文件格式。 优点 ➢ 便于与其他应用程序(生成或读取分隔文件)或脚本进行数据交换 ➢ 易读性好,便于理解 缺点 ➢ 数据存储量非常庞大 ➢ 查询效率不高 ➢ 不支持块压缩 **行存储与列存储:** 比如现在有一张表,数据如下: ![](https://img.kancloud.cn/ab/dd/abdd910b91483ba90424200ba02ecabf_614x380.png) 分别用行存储于列存储。 1. 行存储的存储方式: ![](https://img.kancloud.cn/9e/6a/9e6a30fe2c1963cb63844f30b4148b80_940x145.png) 传统数据库就是行存储,如 MySQL 等。 2. 列存储的存储方式 ![](https://img.kancloud.cn/7b/f1/7bf1617b903e577ac5b325bb1dc23859_1071x317.png) 其中,这里对行进行了一个 split,两行为一个 split。思想与 HBase 的 Region 分区类似。 ![](https://img.kancloud.cn/4e/ad/4ead1c9e1549ad3da1f25509d7fc9da3_1062x702.png)