[TOC]
# 页面注意
设置文件上传输入项时须注意:
* 必须要设置input输入项的name属性,否则浏览器将不会发送上传文件的数据。
* 必须把form的enctype属值设为`multipart/form-data`。设置该值后,浏览器在上传文件时,将把文件数据附带在http请求消息体中,并使用MIME协议对上传的文件进行描述,以方便接收方对上传数据进行解析和处理。
现在我们设计一个这样的文件上传页面——upload.jsp
~~~
<%@ page language="java" contentType="text/html; charset=UTF-8"
pageEncoding="UTF-8"%>
<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<title>Insert title here</title>
</head>
<body>
<form action="${pageContext.request.contextPath }/UploadServlet" enctype="multipart/form-data" method="post">
上传用户:<input type="text" name="username"><br/>
上传文件1:<input type="file" name="file1"><br/>
上传文件2:<input type="file" name="file2"><br/>
<input type="submit" value="上传">
</form>
</body>
</html>
~~~
此时表单的提交方式应该为POST,因为请求方式为POST方式,则可以在请求的实体内容中向服务器发送数据,即文件数据将附带在http请求消息体中。
# Servlet处理请求
接下来如何在Servlet中读取文件上传数据,并保存到本地硬盘中呢?
答案应该是这样的:Request对象提供了一个getInputStream方法,通过这个方法可以读取到客户端提交过来的数据。但由于用户可能会同时上传多个文件,在servlet端编程直接读取上传数据,并分别解析出相应的文件数据是一项非常麻烦的工作。
~~~
public class UploadServlet extends HttpServlet {
protected void doGet(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
InputStream in = request.getInputStream();
int len = 0;
byte[] buffer = new byte[1024];
while ((len=in.read(buffer)) > 0) {
System.out.println(new String(buffer, 0, len));
}
}
protected void doPost(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
doGet(request, response);
}
}
~~~
这时我们再次输入上传用户名和两个文件,Eclipse的控制台输出如下:
~~~
-----------------------------24566388929294
Content-Disposition: form-data; name="username"
aaa
-----------------------------24566388929294
Content-Disposition: form-data; name="file1"; filename="涓婁紶鏂囦欢1.txt"
Content-Type: text/plain
aaaaaaaaaa
-----------------------------24566388929294
Content-Disposition: form-data; name="file2"; filename="涓婁紶鏂囦欢2.txt"
Content-Type: text/plain
bbbbbbbbb
-----------------------------24566388929294--
~~~
这时我们在servlet端编程直接读取上传数据,并分别解析出相应的文件数据是一项非常麻烦的工作。为方便用户处理文件上传数据,Apache开源组织提供了一个用来处理表单文件上传的一个开源组件( Commons-fileupload ),该组件性能优异,并且其API使用极其简单,可以让开发人员轻松实现web文件上传功能,因此在web开发中实现文件上传功能,通常使用Commons-fileupload组件实现。
# 导入Commons-fileupload
使用Commons-fileupload组件实现文件上传,需要导入该组件相应的支撑jar包:Commons-fileupload和commons-io。commons-io不属于文件上传组件的开发jar文件,但Commons-fileupload组件从1.1版本开始,它工作时需要commons-io包的支持。
我们从网上下载了这两个jar包
* commons-fileupload.jar
* commons-io-2.5.jar
# fileupload组件工作流程
fileupload组件工作流程如图所示:
![](https://box.kancloud.cn/a5da7b6a677966e14b143a574075aa10_766x348.png)
## 核心API—DiskFileItemFactory
DiskFileItemFactory是创建FileItem对象的工厂,这个工厂类常用方法有:
* public void setSizeThreshold(int sizeThreshold):设置内存缓冲区的大小,默认值为10K。当上传文件大于缓冲区大小时, fileupload组件将使用临时文件缓存上传文件。
* public void setRepository(java.io.File repository):指定临时文件目录,默认值为System.getProperty("java.io.tmpdir")。
* public DiskFileItemFactory(int sizeThreshold, java.io.File repository):构造函数
## 核心API—ServletFileUpload
ServletFileUpload负责处理上传的文件数据,并将表单中每个输入项封装成一个FileItem对象中。常用方法有:
* boolean isMultipartContent(HttpServletRequest request):判断上传表单是否为multipart/form-data类型。
* List parseRequest(HttpServletRequest request):解析request对象,并把表单中的每一个输入项包装成一个FileItem对象,并返回一个保存了所有FileItem的list集合。
* setFileSizeMax(long fileSizeMax):设置上传文件的最大值。
* setSizeMax(long sizeMax):设置上传文件总量的最大值。
* setHeaderEncoding(java.lang.String encoding):设置编码格式。
* setProgressListener(ProgressListener pListener)
## 中文乱码
上传文件的中文乱码问题:
* 解决上传文件的中文乱码:ServletFileUpload.setHeaderEncoding(“UTF-8”)
* 解决普通输入项的中文乱码(注意,表单类型为multipart/form-data的时候,设置request的编码是无效的):FileItem.setString("UTF-8")
## 注意事项
**在处理表单之前须判断提交表单的类型**
如果处理文件上传的UploadServlet一上来不管三七二十一就劈头盖脸地用解析器进行解析数据,而不管表单类型是不是multipart/form-data。
显然这样做是不合理的。合理的做法应该是:在处理表单之前,要记得调用ServletFileUpload.isMultipartContent方法判断提交表单的类型,如果该方法返回true,则按上传方式处理,否则按照传统方式处理表单即可
**当上传文件大于缓冲区大小时, fileupload组件将使用临时文件缓存上传文件**
DiskFileItemFactory是创建FileItem对象的工厂,其内存缓冲区的大小默认为10K,当上传文件大于缓冲区大小时, fileupload组件将使用临时文件缓存上传文件。比方说我们要上传一部电影,电影通常都在几百兆左右,这么大的一个文件显然就已经超出了内存缓冲区的大小,那这个时候我们可以使用临时文件来缓存上传文件。
我们在项目的WebRoot根目录下新建一个保存临时文件的目录——temp。
我们可以设置DiskFileItemFactory的内存缓冲区大小为1M,即内存缓冲区开辟1M大小的空间。如果上传文件没有超过1M,那么fileupload组件将使用内存缓冲区缓存上传文件;如果上传文件超过1M,那么fileupload组件将使用临时文件缓存上传文件。那么代码就应该是这样的:
~~~
DiskFileItemFactory factory = new DiskFileItemFactory();
factory.setSizeThreshold(1024*1024);
~~~
然后还要指定临时文件的目录,那代码就应该是这样的:
~~~
factory.setRepository(new File(this.getServletContext().getRealPath("/temp")));
~~~
**上传文件的保存目录**
大家在做上传文件时,总该会想我们上传的文件会保存在哪儿吧?绝大部分的程序员可能会在WebRoot根目录下新建一个upload目录,在此目录下保存上传的文件
**判断文件扩展名**
我们在做文件上传系统的时候,可以限制上传文件的类型,如我这个文件上传系统只支持XXX.jpg、XXX.gif、XXX.avi、XXX.txt等格式的文件上传,其他格式的文件我是拒绝的。要做到这点其实不难,只要在处理上传文件时,判断上传文件的后缀名是不是允许的即可
**限制上传文件的大小**
我们也可以设置单个上传文件的大小,只要超出我们设置的值,就不让其上传,并给用户以友好提示。
有些人还是要以身试险的,如我调用解析器的setFileSizeMax方法设置上传文件的最大值为5M,即ServletFileUpload.setFileSizeMax(1024*1024*5);,只要有人上传的文件大于5M,试想解析器在解析这份文件时,应如何做呢?可以想见,解析器就会抛出一个异常,翻阅Commons-fileupload组件的文档,就能找到这样一个异常:FileUploadBase.FileSizeLimitExceededException,不错,我们就是要抛它,然后程序员通过是否抓到这个异常,进而就可以给用户友好提示
**为防止文件覆盖的现象发生,要为上传文件产生一个唯一的文件名**
我们在上传文件系统的时候,要考虑到多用户上传相同文件名的文件,而导致文件覆盖的情况发生的问题。为了避免上传文件的覆盖,程序在保存上传文件时,要为每一个文件生成一个唯一的文件名
## 例子
最后我们要编写处理文件上传的Servlet。我们可以按照下面的步骤将它撸出来。
1. 创建DiskFileItemFactory对象,设置缓冲区大小和临时文件目录,也即创建解析工厂。
2. 使用DiskFileItemFactory对象创建ServletFileUpload对象,并设置上传文件的大小限制,也即创建解析器。
3. 调用ServletFileUpload.parseRequest方法解析request对象,得到一个保存了所有上传内容的List对象。
4. 对list进行迭代,每迭代一个FileItem对象,调用其isFormField方法判断是否是上传文件。
1. 为普通表单字段,则调用getFieldName、getString方法得到字段名和字段值。
2. 为上传文件,则调用getInputStream方法得到数据输入流,从而读取上传数据。
~~~
public class UploadServlet extends HttpServlet {
protected void doGet(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
// List<String> types = Arrays.asList(".jpg",".gif",".avi",".txt");
List<String> types = Arrays.asList("jpg","gif","avi","txt");
// request.setCharacterEncoding("UTF-8");
try {
DiskFileItemFactory factory = new DiskFileItemFactory();
factory.setSizeThreshold(1024*1024);
factory.setRepository(new File(this.getServletContext().getRealPath("/temp")));
ServletFileUpload upload = new ServletFileUpload(factory);
upload.setProgressListener(new ProgressListener() {
// update方法一定要由解析器来调用
@Override
public void update(long pBytesRead, long pContentLength, int pItems) {
System.out.println("当前已解析:" + pBytesRead);
}
});
// 限制上传文件的大小
upload.setFileSizeMax(1024*1024*5); // 只要超出5M,for循环在解析的时候就会抛异常
// 提交的表单类型不是multipart/form-data,没必要用解析器进行解析数据,按照传统方式获取表单数据
if (!upload.isMultipartContent(request)) {
// 按照传统方式获取表单数据
request.getParameter("username");
blabla......
return;
}
// 解决上传文件的中文乱码问题,设置解析器的编码,到底设什么编码,也不能瞎写,一定要看表单的数据是以什么编码提交的!
upload.setHeaderEncoding("UTF-8");
List<FileItem> list = upload.parseRequest(request);
for (FileItem item : list) {
if (item.isFormField()) {
// 为普通输入项的数据
String inputName = item.getFieldName();
String inputValue = item.getString("UTF-8");
// inputValue = new String(inputValue.getBytes("ISO8859-1"), "UTF-8");
System.out.println(inputName + "=" + inputValue);
} else {
// 代表当前处理的item里面封装的是上传文件
String fileName = item.getName().substring(item.getName().lastIndexOf("\\")+1);
if (fileName == null || fileName.trim().equals("")) {
continue;
}
// 拿到文件的扩展名
String ext = fileName.substring(fileName.lastIndexOf(".")+1);
if (!types.contains(ext)) {
request.setAttribute("message", "本系统不支持" + ext + "这种类型");
request.getRequestDispatcher("/message.jsp").forward(request, response);
return;
}
InputStream in = item.getInputStream();
int len = 0;
byte[] buffer = new byte[1024];
// 得到保存在服务器中唯一的文件名
String saveFileName = generateFileName(fileName);
// 产生文件的保存目录
String savePath = generateSavePath(this.getServletContext().getRealPath("/WEB-INF/upload"), saveFileName);
FileOutputStream out = new FileOutputStream(savePath + File.separator + saveFileName);
while ((len=in.read(buffer)) > 0) {
out.write(buffer, 0, len);
}
in.close();
out.close();
/*
* 上传文件完了之后,删除临时文件,
* 千万注意:这句代码一定要放在流关闭之后,否则,还有流和它相关联,那就删除不掉临时文件,
* 为了确保流关闭、删除掉临时文件,最好把这些代码放到finally代码块中。
*/
item.delete();
}
}
} catch (FileUploadBase.FileSizeLimitExceededException e) {
e.printStackTrace();
request.setAttribute("message", "文件大小不能超过5M");
request.getRequestDispatcher("/message.jsp").forward(request, response);
return;
} catch (Exception e) {
throw new RuntimeException(e);
}
request.setAttribute("message", "上传成功!!!");
request.getRequestDispatcher("/message.jsp").forward(request, response);
}
public String generateSavePath(String path, String fileName) {
int hashCode = fileName.hashCode(); // 得到字符串在内存中的地址,如121221
int dir1 = hashCode & 15; // int dir1 = hashCode & 0xf; 代表一级目录
int dir2 = (hashCode >> 4) & 0xf; // 代表二级目录
// 用户第一次上传文件,此savePath目录在服务器的硬盘里原本是没有的,所以应将其创建出来
String savePath = path + File.separator + dir1 + File.separator + dir2;
File file = new File(savePath);
if (!file.exists()) {
file.mkdirs(); // 创建多级目录用mkdirs()方法
}
return savePath;
}
public String generateFileName(String fileName) {
// 4de727e8-2579-477f-a4ae-658355f107fe
return UUID.randomUUID().toString() + "_" + fileName;
}
protected void doPost(HttpServletRequest request, HttpServletResponse response)
throws ServletException, IOException {
doGet(request, response);
}
}
~~~
- 基础
- 编译和安装
- classpath到底是什么?
- 编译运行
- 安装
- sdkman多版本
- jabba多版本
- java字节码查看
- 数据类型
- 简介
- 整形
- char和int
- 变量和常量
- 大数值运算
- 基本类型包装类
- Math类
- 内存划分
- 位运算符
- 方法相关
- 方法重载
- 可变参数
- 方法引用
- 面向对象
- 定义
- 继承和覆盖
- 接口和抽象类
- 接口定义增强
- 内建函数式接口
- 多态
- 泛型
- final和static
- 内部类
- 包
- 修饰符
- 异常
- 枚举类
- 代码块
- 对象克隆
- BeanUtils
- java基础类
- scanner类
- Random类
- System类
- Runtime类
- Comparable接口
- Comparator接口
- MessageFormat类
- NumberFormat
- 数组相关
- 数组
- Arrays
- string相关
- String
- StringBuffer
- StringBuilder
- 正则
- 日期类
- Locale类
- Date
- DateFormat
- SimpleDateFormat
- Calendar
- 新时间日期API
- 简介
- LocalDate,LocalTime,LocalDateTime
- Instant时间点
- 带时区的日期,时间处理
- 时间间隔
- 日期时间校正器
- TimeUnit
- 用yyyy
- 集合
- 集合和迭代器
- ArrayList集合
- List
- Set
- 判断集合唯一
- Map和Entry
- stack类
- Collections集合工具类
- Stream数据流
- foreach不能修改内部元素
- of方法
- IO
- File类
- 字节流stream
- 字符流Reader
- IO流分类
- 转换流
- 缓冲流
- 流的操作规律
- properties
- 序列化流与反序列化流
- 打印流
- System类对IO支持
- commons-IO
- IO流总结
- NIO
- 异步与非阻塞
- IO通信
- Unix的IO模型
- epoll对于文件描述符操作模式
- 用户空间和内核空间
- NIO与普通IO的主要区别
- Paths,Path,Files
- Buffer
- Channel
- Selector
- Pipe
- Charset
- NIO代码
- 多线程
- 创建线程
- 线程常用方法
- 线程池相关
- 线程池概念
- ThreadPoolExecutor
- Runnable和Callable
- 常用的几种线程池
- 线程安全
- 线程同步的几种方法
- synchronized
- 死锁
- lock接口
- ThreadLoad
- ReentrantLock
- 读写锁
- 锁的相关概念
- volatile
- 释放锁和不释放锁的操作
- 等待唤醒机制
- 线程状态
- 守护线程和普通线程
- Lamda表达式
- 反射相关
- 类加载器
- 反射
- 注解
- junit注解
- 动态代理
- 网络编程相关
- 简介
- UDP
- TCP
- 多线程socket上传图片
- NIO
- JDBC相关
- JDBC
- 预处理
- 批处理
- 事务
- properties配置文件
- DBUtils
- DBCP连接池
- C3P0连接池
- 获得MySQL自动生成的主键
- Optional类
- Jigsaw模块化
- 日志相关
- JDK日志
- log4j
- logback
- xml
- tomcat
- maven
- 简介
- 仓库
- 目录结构
- 常用命令
- 生命周期
- idea配置
- jar包冲突
- 依赖范围
- 私服
- 插件
- git-commit-id-plugin
- maven-assembly-plugin
- maven-resources-plugin
- maven-compiler-plugin
- versions-maven-plugin
- maven-source-plugin
- tomcat-maven-plugin
- 多环境
- 自定义插件
- stream
- swing
- json
- jackson
- optional
- junit
- gradle
- servlet
- 配置
- ServletContext
- 生命周期
- HttpServlet
- request
- response
- 乱码
- session和cookie
- cookie
- session
- jsp
- 简介
- 注释
- 方法,成员变量
- 指令
- 动作标签
- 隐式对象
- EL
- JSTL
- javaBean
- listener监听器
- Filter过滤器
- 图片验证码
- HttpUrlConnection
- 国际化
- 文件上传
- 文件下载
- spring
- 简介
- Bean
- 获取和实例化
- 属性注入
- 自动装配
- 继承和依赖
- 作用域
- 使用外部属性文件
- spel
- 前后置处理器
- 生命周期
- 扫描规则
- 整合多个配置文件
- 注解
- 简介
- 注解分层
- 类注入
- 分层和作用域
- 初始化方法和销毁方法
- 属性
- 泛型注入
- Configuration配置文件
- aop
- aop的实现
- 动态代理实现
- cglib代理实现
- aop名词
- 简介
- aop-xml
- aop-注解
- 代理方式选择
- jdbc
- 简介
- JDBCTemplate
- 事务
- 整合
- junit整合
- hibernate
- 简介
- hibernate.properties
- 实体对象三种状态
- 检索方式
- 简介
- 导航对象图检索
- OID检索
- HQL
- Criteria(QBC)
- Query
- 缓存
- 事务管理
- 关系映射
- 注解
- 优化
- MyBatis
- 简介
- 入门程序
- Mapper动态代理开发
- 原始Dao开发
- Mapper接口开发
- SqlMapConfig.xml
- map映射文件
- 输出返回map
- 输入参数
- pojo包装类
- 多个输入参数
- resultMap
- 动态sql
- 关联
- 一对一
- 一对多
- 多对多
- 整合spring
- CURD
- 占位符和sql拼接以及参数处理
- 缓存
- 延迟加载
- 注解开发
- springMVC
- 简介
- RequestMapping
- 参数绑定
- 常用注解
- 响应
- 文件上传
- 异常处理
- 拦截器
- springBoot
- 配置
- 热更新
- java配置
- springboot配置
- yaml语法
- 运行
- Actuator 监控
- 多环境配置切换
- 日志
- 日志简介
- logback和access
- 日志文件配置属性
- 开机自启
- aop
- 整合
- 整合Redis
- 整合Spring Data JPA
- 基本查询
- 复杂查询
- 多数据源的支持
- Repository分析
- JpaSpecificationExecutor
- 整合Junit
- 整合mybatis
- 常用注解
- 基本操作
- 通用mapper
- 动态sql
- 关联映射
- 使用xml
- spring容器
- 整合druid
- 整合邮件
- 整合fastjson
- 整合swagger
- 整合JDBC
- 整合spingboot-cache
- 请求
- restful
- 拦截器
- 常用注解
- 参数校验
- 自定义filter
- websocket
- 响应
- 异常错误处理
- 文件下载
- 常用注解
- 页面
- Thymeleaf组件
- 基本对象
- 内嵌对象
- 上传文件
- 单元测试
- 模拟请求测试
- 集成测试
- 源码解析
- 自动配置原理
- 启动流程分析
- 源码相关链接
- Servlet,Filter,Listener
- springcloud
- 配置
- 父pom
- 创建子工程
- Eureka
- Hystrix
- Ribbon
- Feign
- Zuul
- kotlin
- 基本数据类型
- 函数
- 区间
- 区块链
- 简介
- linux
- ulimit修改
- 防止syn攻击
- centos7部署bbr
- debain9开启bbr
- mysql
- 隔离性
- sql执行加载顺序
- 7种join
- explain
- 索引失效和优化
- 表连接优化
- orderby的filesort问题
- 慢查询
- show profile
- 全局查询日志
- 死锁解决
- sql
- 主从
- IDEA
- mac快捷键
- 美化界面
- 断点调试
- 重构
- springboot-devtools热部署
- IDEA进行JAR打包
- 导入jar包
- ProjectStructure
- toString添加json模板
- 配置maven
- Lombok插件
- rest client
- 文档显示
- sftp文件同步
- 书签
- 代码查看和搜索
- postfix
- live template
- git
- 文件头注释
- JRebel
- 离线模式
- xRebel
- github
- 连接mysql
- 选项没有Java class的解决方法
- 扩展
- 项目配置和web部署
- 前端开发
- json和Inject language
- idea内存和cpu变高
- 相关设置
- 设计模式
- 单例模式
- 简介
- 责任链
- JUC
- 原子类
- 原子类简介
- 基本类型原子类
- 数组类型原子类
- 引用类型原子类
- JVM
- JVM规范内存解析
- 对象的创建和结构
- 垃圾回收
- 内存分配策略
- 备注
- 虚拟机工具
- 内存模型
- 同步八种操作
- 内存区域大小参数设置
- happens-before
- web service
- tomcat
- HTTPS
- nginx
- 变量
- 运算符
- 模块
- Rewrite规则
- Netty
- netty为什么没用AIO
- 基本组件
- 源码解读
- 简单的socket例子
- 准备netty
- netty服务端启动
- 案例一:发送字符串
- 案例二:发送对象
- websocket
- ActiveMQ
- JMS
- 安装
- 生产者-消费者代码
- 整合springboot
- kafka
- 简介
- 安装
- 图形化界面
- 生产过程分析
- 保存消息分析
- 消费过程分析
- 命令行
- 生产者
- 消费者
- 拦截器interceptor
- partition
- kafka为什么快
- kafka streams
- kafka与flume整合
- RabbitMQ
- AMQP
- 整体架构
- RabbitMQ安装
- rpm方式安装
- 命令行和管控页面
- 消息生产与消费
- 整合springboot
- 依赖和配置
- 简单测试
- 多方测试
- 对象支持
- Topic Exchange模式
- Fanout Exchange订阅
- 消息确认
- java client
- RabbitAdmin和RabbitTemplate
- 两者简介
- RabbitmqAdmin
- RabbitTemplate
- SimpleMessageListenerContainer
- MessageListenerAdapter
- MessageConverter
- 详解
- Jackson2JsonMessageConverter
- ContentTypeDelegatingMessageConverter
- lucene
- 简介
- 入门程序
- luke查看索引
- 分析器
- 索引库维护
- elasticsearch
- 配置
- 插件
- head插件
- ik分词插件
- 常用术语
- Mapping映射
- 数据类型
- 属性方法
- Dynamic Mapping
- Index Template 索引模板
- 管理映射
- 建立映射
- 索引操作
- 单模式下CURD
- mget多个文档
- 批量操作
- 版本控制
- 基本查询
- Filter过滤
- 组合查询
- 分析器
- redis
- String
- list
- hash
- set
- sortedset
- 发布订阅
- 事务
- 连接池
- 管道
- 分布式可重入锁
- 配置文件翻译
- 持久化
- RDB
- AOF
- 总结
- Lettuce
- zookeeper
- zookeeper简介
- 集群部署
- Observer模式
- 核心工作机制
- zk命令行操作
- zk客户端API
- 感知服务动态上下线
- 分布式共享锁
- 原理
- zab协议
- 两阶段提交协议
- 三阶段提交协议
- Paxos协议
- ZAB协议
- hadoop
- 简介
- hadoop安装
- 集群安装
- 单机安装
- linux编译hadoop
- 添加新节点
- 退役旧节点
- 集群间数据拷贝
- 归档
- 快照管理
- 回收站
- 检查hdfs健康状态
- 安全模式
- hdfs简介
- hdfs命令行操作
- 常见问题汇总
- hdfs客户端操作
- mapreduce工作机制
- 案例-单词统计
- 局部聚合Combiner
- combiner流程
- combiner案例
- 自定义排序
- 自定义Bean对象
- 排序的分类
- 案例-按总量排序需求
- 一次性完成统计和排序
- 分区
- 分区简介
- 案例-结果分区
- 多表合并
- reducer端合并
- map端合并(分布式缓存)
- 分组
- groupingComparator
- 案例-求topN
- 全局计数器
- 合并小文件
- 小文件的弊端
- CombineTextInputFormat机制
- 自定义InputFormat
- 自定义outputFormat
- 多job串联
- 倒排索引
- 共同好友
- 串联
- 数据压缩
- InputFormat接口实现类
- yarn简介
- 推测执行算法
- 本地提交到yarn
- 框架运算全流程
- 数据倾斜问题
- mapreduce的优化方案
- HA机制
- 优化
- Hive
- 安装
- shell参数
- 数据类型
- 集合类型
- 数据库
- DDL操作
- 创建表
- 修改表
- 分区表
- 分桶表
- DML操作
- load
- insert
- select
- export,import
- Truncate
- 注意
- 严格模式
- 函数
- 内置运算符
- 内置函数
- 自定义函数
- Transfrom实现
- having和where不同
- 压缩
- 存储
- 存储和压缩结合使用
- explain详解
- 调优
- Fetch抓取
- 本地模式
- 表的优化
- GroupBy
- count(Distinct)去重统计
- 行列过滤
- 动态分区调整
- 数据倾斜
- 并行执行
- JVM重用
- 推测执行
- reduce内存和个数
- sql查询结果作为变量(shell)
- youtube
- flume
- 简介
- 安装
- 常用组件
- 拦截器
- 案例
- 监听端口到控制台
- 采集目录到HDFS
- 采集文件到HDFS
- 多个agent串联
- 日志采集和汇总
- 单flume多channel,sink
- 自定义拦截器
- 高可用配置
- 使用注意
- 监控Ganglia
- sqoop
- 安装
- 常用命令
- 数据导入
- 准备数据
- 导入数据到HDFS
- 导入关系表到HIVE
- 导入表数据子集
- 增量导入
- 数据导出
- 打包脚本
- 作业
- 原理
- azkaban
- 简介
- 安装
- 案例
- 简介
- command类型单一job
- command类型多job工作流flow
- HDFS操作任务
- mapreduce任务
- hive脚本任务
- oozie
- 安装
- hbase
- 简介
- 系统架构
- 物理存储
- 寻址机制
- 读写过程
- 安装
- 命令行
- 基本CURD
- java api
- CURD
- CAS
- 过滤器查询
- 建表高级属性
- 与mapreduce结合
- 与sqoop结合
- 协处理器
- 参数配置优化
- 数据备份和恢复
- 节点管理
- 案例-点击流
- 简介
- HUE
- 安装
- storm
- 简介
- 安装
- 集群启动及任务过程分析
- 单词统计
- 单词统计(接入kafka)
- 并行度和分组
- 启动流程分析
- ACK容错机制
- ACK简介
- BaseRichBolt简单使用
- BaseBasicBolt简单使用
- Ack工作机制
- 本地目录树
- zookeeper目录树
- 通信机制
- 案例
- 日志告警
- 工具
- YAPI
- chrome无法手动拖动安装插件
- 时间和空间复杂度
- jenkins
- 定位cpu 100%
- 常用脚本工具
- OOM问题定位
- scala
- 编译
- 基本语法
- 函数
- 数组常用方法
- 集合
- 并行集合
- 类
- 模式匹配
- 异常
- tuple元祖
- actor并发编程
- 柯里化
- 隐式转换
- 泛型
- 迭代器
- 流stream
- 视图view
- 控制抽象
- 注解
- spark
- 企业架构
- 安装
- api开发
- mycat
- Groovy
- 基础