[toc]
## 零 hadoop集群基础
hadoop是分布式大数据组件
:
* 大数据
大数据是海量数据的处理和分析的技术,需要用分布式框架
* 分布式
分布式则是通过多个主机的进程协同在一起,构成整个应用
hadoop常用模块
* hdfs-分布式存储模块,使用了虚拟的文件系统,架构在Linux之上
* mapreduce-分布式计算模块
Hadoop三种集群模式
* 本地模式
单机模式,进程都不需要启动
* 伪分布式
在单机上启动多个hadoop实例组成伪集群的方式
* 完全分布式
在多个机器上安卓hadoop,组成真正的集群模式
## 一 hadoop本地模式
### 单机环境部署
**准备环境**
```sh
mkdir -p /server/tools
cd /server/tools
#上传jdk和hadoop安装包
[root@hadoop-1 tools]# ll
total 372880
-rw-r--r-- 1 root root 214092195 Nov 29 11:24 hadoop-2.7.3.tar.gz
-rw-r--r-- 1 root root 167733100 Nov 29 11:24 jdk-8u121-linux-x64.rpm
```
**安装软件**
```sh
#安装jdk软件
rpm -ivh jdk-8u121-linux-x64.rpm
#安装hadoop
tar xf hadoop-2.7.3.tar.gz -C /opt/
cd /opt/
ln -s hadoop-2.7.3/ hadoop
cd /opt/hadoop/etc/
mv hadoop/ local
cp -r hadoop/ pseudo
cp -r hadoop/ full
ln -s local/ hadoop
#设置环境变量
[root@hadoop-1 ~]# tail -5 /etc/profile
# ----java环境变量----
export JAVA_HOME=/usr/java/jdk1.8.0_121/
# ----hadoop环境变量----
export HADOOP_HOME=/opt/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[root@hadoop-1 ~]# source /etc/profile
```
**安装验证**
```sh
[root@hadoop-1 ~]# java -version
java version "1.8.0_121"
........
[root@hadoop-1 ~]# hadoop version
Hadoop 2.7.3
........
```
### 单机环境使用
单机环境部署好后,不需要启动hadoop,可以直接使用hadoop命令,hdfs和linux共用一套文件系统,用法如下:
**建立测试数据**
```sh
mkdir /test
cd /test
echo bbbb >b.txt
```
**操作数据**
hdfs的文件操作,基本上就是在linux的命令前加上hdfs前缀,如:`hfds -dfs -CMD`
```sh
#显示文件
hdfs dfs -ls
# 查看文件
hdfs dfs -cat b.txt
# 删除文件
hdfs dfs -rm b.txt
# 创建目录
hdfs dfs -mkdir a.txt
```
## 二 hadoop伪分布式
伪分布式和单机的区别,就是使用了另外一套配置文件而已
### 伪分布式配置
**修改软连接**
```sh
cd /opt/hadoop/etc/
ln -sf pseudo hadoop
```
**修改core-site文件**
```
cat >hadoop/core-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
EOF
```
**修改hdfs-site文件**
```
cat >hadoop/hdfs-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
EOF
```
**修改mapred-site文件**
```
cat >hadoop/mapred-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
EOF
```
**修改yarn-site文件**
```
cat >hadoop/yarn-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
EOF
```
### 伪分布式启动
**设置ssh免秘钥**
```sh
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa
ssh-copy-id hadoop-1
```
**初始化hdfs**
```sh
hdfs namenode -format
```
**修改hadoop.set配置**
```sh
#修改第25行的JAVA_HOME配置
sed -i "s#\(export JAVA_HOME=\).*#\1`echo $JAVA_HOME`#g" hadoop/hadoop-env.sh
```
启动程序并验证
```sh
sh /opt/hadoop/sbin/start-all.sh
[root@hadoop-1 etc]# jps
...... DataNode
...... ResourceManager
...... NodeManager
...... NameNode
...... SecondaryNameNode
# 只要出现这5个程序,表示hadoop启动成功
#创建文件测试
[root@hadoop-1 etc]# hdfs dfs -mkdir /abcd
```
浏览器验证
在浏览器输入`10.0.0.11:50070`进入hadoop的webUI页面,可以进行网页浏览操作
## 三 hadoop完全分布式
完全分布式和伪分布式的区别是
* `NameNode` `SecondaryNameNode` `ResourceManager
`三个服务放在管理节点上启动
* `NodeManager
` `DataNode`两个服务在所有数据节点上启动
* 需要再各配置文件中指定服务器信息
* master服务器到slave服务器的互信(ssh免密)
### 配置文件修改
**修改软连接**
```sh
cd /opt/hadoop/etc/
ln -sf full hadoop
```
**修改slaves文件**
```sh
cat >>hadoop/slaves <<EOF
10.0.0.12
10.0.0.13
10.0.0.14
EOF
```
**修改core-site文件**
```
cat >hadoop/core-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://10.0.0.11:8020</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/centos/hadoop</value>
</property>
</configuration>
EOF
```
**修改hdfs-site文件**
```
cat >hadoop/hdfs-site.xml <<EOF
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
EOF
```
**修改mapred-site文件**
```
cat >hadoop/mapred-site.xml <<EOF
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
EOF
```
**修改yarn-site文件**
```
cat >hadoop/yarn-site.xml <<EOF
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>10.0.0.11</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
EOF
```
### 互信和分发配置
**ssh互信**
```sh
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
ssh-copy-id hadoop@10.0.0.11
ssh-copy-id hadoop@10.0.0.12
ssh-copy-id hadoop@10.0.0.13
ssh-copy-id hadoop@10.0.0.14
```
**分发配置**
```sh
scp -r /opt/hadoop/etc/full /opt/hadoop/etc/hadoop hadoop@10.0.0.12:/opt/hadoop/etc/
scp -r /opt/hadoop/etc/full /opt/hadoop/etc/hadoop hadoop@10.0.0.13:/opt/hadoop/etc/
scp -r /opt/hadoop/etc/full /opt/hadoop/etc/hadoop hadoop@10.0.0.14:/opt/hadoop/etc/
```
**格式化HDFS并启动hadoop**
```sh
hdfs namenode -format
sh /opt/hadoop/sbin/start-all.sh
```
**验证安装结果**
```sh
# master上启动的服务
[root@hadoop-1 etc]# jps
...... NameNode
...... SecondaryNameNode
...... ResourceManager
# slaves上启动的服务
[root@hadoop-2 etc]# jps
...... NodeManager
...... DataNode
```
- shell编程
- 变量1-规范-环境变量-普通变量
- 变量2-位置-状态-特殊变量
- 变量3-变量子串
- 变量4-变量赋值三种方法
- 变量5-数组相关
- 计算1-数值计算命令和案例
- 计算2-expr命令举例
- 计算3-条件表达式和各种操作符
- 计算4-条件表达式和操作符案例
- 循环1-函数的概念与作用
- 循环2-if与case语法
- 循环3-while语法
- 循环4-for循环
- 其他1-判断传入的参数为0或整数的多种思路
- 其他2-while+read按行读取文件
- 其他3-给输出内容加颜色
- 其他4-shell脚本后台运行知识
- 其他5-6种产生随机数的方法
- 其他6-break,continue,exit,return区别
- if语法案例
- case语法案例
- 函数语法案例
- WEB服务软件
- nginx相关
- 01-简介与对比
- 02-日志说明
- 03-配置文件和虚拟主机
- 04-location模块和访问控制
- 05-status状态模块
- 06-rewrite重写模块
- 07-负载均衡和反向代理
- 08-反向代理监控虚拟IP地址
- nginx与https自签发证书
- php-nginx-mysql联动
- Nginx编译安装[1.12.2]
- 案例
- 不同客户端显示不同信息
- 上传和访问资源池分离
- 配置文件
- nginx转发解决跨域问题
- 反向代理典型配置
- php相关
- C6编译安装php.5.5.32
- C7编译php5
- C6/7yum安装PHP指定版本
- tomcxat相关
- 01-jkd与tomcat部署
- 02-目录-日志-配置文件介绍
- 03-tomcat配置文件详解
- 04-tomcat多实例和集群
- 05-tomcat监控和调优
- 06-Tomcat安全管理规范
- show-busy-java-threads脚本
- LVS与keepalived
- keepalived
- keepalived介绍和部署
- keepalived脑裂控制
- keepalived与nginx联动-监控
- keepalived与nginx联动-双主
- LVS负载均衡
- 01-LVS相关概念
- 02-LVS部署实践-ipvsadm
- 03-LVS+keepalived部署实践
- 04-LVS的一些问题和思路
- mysql数据库
- 配置和脚本
- 5.6基础my.cnf
- 5.7基础my.cnf
- 多种安装方式
- 详细用法和命令
- 高可用和读写分离
- 优化和压测
- docker与k8s
- docker容器技术
- 1-容器和docker基础知识
- 2-docker软件部署
- 3-docker基础操作命令
- 4-数据的持久化和共享互连
- 5-docker镜像构建
- 6-docker镜像仓库和标签tag
- 7-docker容器的网络通信
- 9-企业级私有仓库harbor
- docker单机编排技术
- 1-docker-compose快速入门
- 2-compose命令和yaml模板
- 3-docker-compose命令
- 4-compose/stack/swarm集群
- 5-命令补全和资源限制
- k8s容器编排工具
- mvn的dockerfile打包插件
- openstack与KVM
- kvm虚拟化
- 1-KVM基础与快速部署
- 2-KVM日常管理命令
- 3-磁盘格式-快照和克隆
- 4-桥接网络-热添加与热迁移
- openstack云平台
- 1-openstack基础知识
- 2-搭建环境准备
- 3-keystone认证服务部署
- 4-glance镜像服务部署
- 5-nova计算服务部署
- 6-neutron网络服务部署
- 7-horizon仪表盘服务部署
- 8-启动openstack实例
- 9-添加计算节点流程
- 10-迁移glance镜像服务
- 11-cinder块存储服务部署
- 12-cinder服务支持NFS存储
- 13-新增一个网络类型
- 14-云主机冷迁移前提设置
- 15-VXALN网络类型配置
- 未分类杂项
- 部署环境准备
- 监控
- https证书
- python3.6编译安装
- 编译安装curl[7.59.0]
- 修改Redhat7默认yum源为阿里云
- 升级glibc至2.17
- rabbitmq安装和启动
- rabbitmq多实例部署[命令方式]
- mysql5.6基础my.cnf
- centos6[upstart]/7[systemd]创建守护进程
- Java启动参数详解
- 权限控制方案
- app发包仓库
- 版本发布流程
- elk日志系统
- rsyslog日志统一收集系统
- ELK系统介绍及YUM源
- 快速安装部署ELK
- Filebeat模块讲解
- logstash的in/output模块
- logstash的filter模块
- Elasticsearch相关操作
- ES6.X集群及head插件
- elk收集nginx日志(json格式)
- kibana说明-汉化-安全
- ES安装IK分词器
- zabbix监控
- zabbix自动注册模板实现监控项自动注册
- hadoop大数据集群
- hadoop部署
- https证书
- certbot网站
- jenkins与CI/CD
- 01-Jenkins部署和初始化
- 02-Jenkins三种插件安装方式
- 03-Jenkins目录说明和备份
- 04-git与gitlab项目准备
- 05-构建自由风格项目和相关知识
- 06-构建html静态网页项目
- 07-gitlab自动触发项目构建
- 08-pipelinel流水线构建项目
- 09-用maven构建java项目
- iptables
- 01-知识概念
- 02-常规命令实战
- 03-企业应用模板
- 04-企业应用模板[1键脚本]
- 05-企业案例-共享上网和端口映射
- SSH与VPN
- 常用VPN
- VPN概念和常用软件
- VPN之PPTP部署[6.x][7.x]
- 使用docker部署softether vpn
- softEther-vpn静态路由表推送
- SSH服务
- SSH介绍和部署
- SSH批量分发脚本
- 开启sftp日志并限制sftp访问目录
- sftp账号权限分离-开发平台
- ssh配置文件最佳实践
- git-github-gitlab
- git安装部署
- git详细用法
- github使用说明
- gitlab部署和使用
- 缓存数据库
- zookeeper草稿
- mongodb数据库系列
- mongodb基本使用
- mongodb常用命令
- MongoDB配置文件详解
- mongodb用户认证管理
- mongodb备份与恢复
- mongodb复制集群
- mongodb分片集群
- docker部署mongodb
- memcached
- memcached基本概念
- memcached部署[6.x][7.x]
- memcached参数和命令
- memcached状态和监控
- 会话共享和集群-优化-持久化
- memcached客户端-web端
- PHP测试代码
- redis
- 1安装和使用
- 2持久化-事务-锁
- 3数据类型和发布订阅
- 4主从复制和高可用
- 5redis集群
- 6工具-安全-pythonl连接
- redis配置文件详解
- 磁盘管理和存储
- Glusterfs分布式存储
- GlusterFS 4.1 版本选择和部署
- Glusterfs常用命令整理
- GlusterFS 4.1 深入使用
- NFS文件存储
- NFS操作和部署
- NFS文件系统-挂载和优化
- sersync与inotify
- rsync同步服务
- rsyncd.conf
- rsync操作和部署文档
- rsync常见错误处理
- inotify+sersync同步服务
- inotify安装部署
- inotify最佳脚本
- sersync安装部署
- 时间服务ntp和chrony
- 时间服务器部署
- 修改utc时间为cst时间
- 批量操作与自动化
- cobbler与kickstart
- KS+COBBLER文件
- cobbler部署[7.x]
- kickstart部署[7.x]
- kickstar-KS文件和语法解析
- kickstart-PXE配置文件解析
- 自动化之ansible
- ansible部署和实践
- ansible剧本编写规范
- 配置文件示例
- 内网DNS服务
- 压力测试
- 压测工具-qpefr测试带宽和延时