ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
## hadoop > 是一个分布式开源框架,支持成千上万个节点,每个节点依靠本地的计算和存储。在应用层面提供高可用,将硬件错误看成一个常态。 #### 模块 - `hdfs`:`hadoop distributed file system`,分布式文件系统,海量数据存储 - `yarn`:集群资源调度框架 - `mapreduce`:分布式计算框架 #### hdfs - 分块存储,每个块称为`block`;设计的分块不能太大,太大会负载不均衡,hadoop2.x默认的分块大小为`128M`,如果一个文件不足`128M`也会单独成块,块的大小就是存储的文件大小 - hdfs中默认块的存储采用备份机制,默认的备份个数是3个;配置`dfs.replication`,备份的地位相同,没有主次之分; 相同的数据块备份一定存在不同的节点上;