## hadoop
> 是一个分布式开源框架,支持成千上万个节点,每个节点依靠本地的计算和存储。在应用层面提供高可用,将硬件错误看成一个常态。
#### 模块
- `hdfs`:`hadoop distributed file system`,分布式文件系统,海量数据存储
- `yarn`:集群资源调度框架
- `mapreduce`:分布式计算框架
#### hdfs
- 分块存储,每个块称为`block`;设计的分块不能太大,太大会负载不均衡,hadoop2.x默认的分块大小为`128M`,如果一个文件不足`128M`也会单独成块,块的大小就是存储的文件大小
- hdfs中默认块的存储采用备份机制,默认的备份个数是3个;配置`dfs.replication`,备份的地位相同,没有主次之分;
相同的数据块备份一定存在不同的节点上;