●▲● **`array split(string str, string pat)`**
-- 按照 pat 字符串分割 str,返回分割后的字符串数组
```sql
hive> select split('abtcdtef','t') from test;
["ab","cd","ef"]
```
●▲● **`string concat(string A, string B, ...)`**
-- 拼接字符串,返回字符串AB
```sql
select concat('abc', 'def', 'ghf');
+------------+--+
| _c0 |
+------------+--+
| abcdefghf |
+------------+--+
select concat(id, name) from test;
+------------+--+
| _c0 |
+------------+--+
| 1zhangsan |
| 2lisi |
+------------+--+
```
●▲● **`string concat_ws(string SEP, string A, string B, string ...)`** -
-- 拼接字符串,返回字符串AB
-- SEP: A与B的分割符
```sql
select concat_ws(',', "abc", "def", "gh");
+-------------+--+
| _c0 |
+-------------+--+
| abc,def,gh |
+-------------+--+
```
●▲●
**`string substr(string A, int start)`**
**`string substr(string A, int start, int len)`**
**`string substring(string A, int start)`**
**`string substring(string A, int start, int len)`**
-- 截取字符串A
```sql
select substr('abcde', 3);
+------+--+
| _c0 |
+------+--+
| cde |
+------+--+
select substr('abcde', -1);
+------+--+
| _c0 |
+------+--+
| e |
+------+--+
```
●▲● **`int instr(string str, string substr)`**
-- 返回substr在str首次出现的位置
```sql
select instr("abcdef", "de");
+------+--+
| _c0 |
+------+--+
| 4 |
+------+--+
```
●▲● **int lenth(string A)`**
-- 返回字符串A的长度
```sql
select length("abc");
+------+--+
| _c0 |
+------+--+
| 3 |
+------+--+
```
●▲● **`int locate(string substr, string str[, int pos])`**
-- 返回substr在str中首次出现的位置,从pos开始查找
```sql
select locate('a', 'abcda');
+------+--+
| _c0 |
+------+--+
| 1 |
+------+--+
select locate('a', 'abcda', 2);
+------+--+
| _c0 |
+------+--+
| 5 |
+------+--+
```
●▲●
**`string upper(string A)`**
**`string ucase(string A)`**
-- 都是将字符串A转换为大写
```sql
select upper('abcdE');
+--------+--+
| _c0 |
+--------+--+
| ABCDE |
+--------+--+
select ucase('abcdE');
+--------+--+
| _c0 |
+--------+--+
| ABCDE |
+--------+--+
```
<br/>
●▲●
**`string lower(string A)`**
**`string lcase(string A)`**
-- 都是将字符串转换为小写
```sql
select lower('ABCDe');
+--------+--+
| _c0 |
+--------+--+
| abcde |
+--------+--+
select lcase('ABcD5');
+--------+--+
| _c0 |
+--------+--+
| abcd5 |
+--------+--+
```
<br/>
●▲●
**`string trim(string A)`** 去除字符串A两边的空格;
`string ltrim(string A)` 去除字符串A左边空格;
`string rtrim(string A)`去除字符串A右边空格;
```sql
select trim(' ab c ');
+-------+--+
| _c0 |
+-------+--+
| ab c |
+-------+--+
```
●▲● **`string regexp_replace(string A, string regx, string C)`**
-- 将A中符合java正则表达式 regx 的部分用C替换
```sql
select regexp_replace('foobar', 'oo|ar', '');
+------+--+
| _c0 |
+------+--+
| fb |
+------+--+
```
●▲● **`string regexp_extract(string subject, string pattern, int index)`**
-- 将subject按照pattern正则规则拆分,返回拆分后index位置的字符
```sql
select regexp_extract('foothebar','foo(.*?)(bar)', 2);
+------+--+
| _c0 |
+------+--+
| bar |
+------+--+
```
注意:在有些情况下要使用转义字符,下面的等号要用双竖线转义,这是 java 正则表达式的规则。
```sql
select data_field,
regexp_extract(data_field,'.*?bgStart\\=([^&]+)',1) as aaa,
regexp_extract(data_field,'.*?contentLoaded_headStart\\=([^&]+)',1)as bbb,
regexp_extract(data_field,'.*?AppLoad2Req\\=([^&]+)',1) asccc
from pt_nginx_loginlog_st
where pt = '2012-03-26' limit 2;
```
●▲●`int ascii(string str)`查看str字符串中第一个字符的ascii值
```sql
select ascii('ab') as ascii;
+--------+--+
| ascii |
+--------+--+
| 97 |
+--------+--+
select ascii(name) as ascii from test;
+--------+--+
| ascii |
+--------+--+
| 122 |
| 108 |
+--------+--+
```
●▲●`string base64(binary bin)`返回二进制bin的base64编码格式
```sql
select base64(binary('test'));
+-----------+--+
| _c0 |
+-----------+--+
| dGVzdA== |
+-----------+--+
select base64(binary(name)) from test;
+---------------+--+
| _c0 |
+---------------+--+
| emhhbmdzYW4= |
| bGlzaQ== |
+---------------+--+
```
●▲●`string concat_ws(string SEP, array<string>)`
-- 将数组以字符串返回
-- SEP 字符串元素分割符
```sql
select concat_ws('|', array('a', 'b', 'cd'));
+---------+--+
| _c0 |
+---------+--+
| a|b|cd |
+---------+--+
-- 列转行
select user_id,
concat_ws(",", collect_list(order_id)) as order_value
from col_lie
group by user_id
limit 10;
```
●▲●`string format_number(number x, int d)`
-- 将x保留d位小数,四舍五入
```sql
select format_number(5.23456, 3);
+--------+--+
| _c0 |
+--------+--+
| 5.235 |
+--------+--+
```
<br/>
●▲●`map<string, string> str_to_map(text[, delimiter1, delimiter2])`
-- 将字符串text按照给定的分割符转换为map结构
```sql
select str_to_map('key1:value1,key2:value2');
+------------------------------------+--+
| _c0 |
+------------------------------------+--+
| {"key1":"value1","key2":"value2"} |
+------------------------------------+--+
select str_to_map('k1=v1,k2=v2', ',', '=');
+------------------------+--+
| _c0 |
+------------------------+--+
| {"k1":"v1","k2":"v2"} |
+------------------------+--+
```
●▲●`string printf(string format, obj... args)`
-- 将obj进行format格式化
```sql
select printf("%08X", 123);
+-----------+--+
| _c0 |
+-----------+--+
| 0000007B |
+-----------+--+
```
●▲●`binary unbase64(string base64str)`
-- 将base64str解码为二进制
```sql
select base64(binary("hive"));
+-----------+--+
| _c0 |
+-----------+--+
| aGl2ZQ== |
+-----------+--+
select unbase64('aGl2ZQ==');
+-------+--+
| _c0 |
+-------+--+
| hive |
+-------+--+
```
<br/>
●▲●
`string parse_url(string url, string partToExtract[, string keyToExtract])`
-- 返回URL中指定的部分
-- partToExtract取值有`HOST`, `PATH`, `QUERY`,`REF`,`PROTOCOL`, `AUTHORITY`, `FILE`,`USERINFO`.
```sql
select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'HOST');
+---------------+--+
| _c0 |
+---------------+--+
| facebook.com |
+---------------+--+
select parse_url('http://facebook.com/path1/p.php?k1=v1&k2=v2#Ref1', 'QUERY','k1');
+------+--+
| _c0 |
+------+--+
| v1 |
+------+--+
```
●▲●`string get_json_object(string json_str, string path)`
-- 返回json_str中与path匹配的内容,如果没有匹配返回NULL
```sql
select get_json_object('{"store":{"fruit":[{"weight":8,"type":"apple"},{"weight":9,"type":"pear"}],
"bicycle":{"price":19.95,"color":"red"}
},
"email":"amy@only_for_json_udf_test.net",
"owner":"amy"
}
','$.owner');
+------+--+
| _c0 |
+------+--+
| amy |
+------+--+
```
●▲●`string space(int n)`返回长度为 n 的字符串
```sql
hive> select space(10) from test;
hive> select length(space(10)) from test;
10
```
●▲●`string repeat(string str, int n)`返回重复 n 次后的 str 字符串
```sql
hive> select repeat('abc',5) from test;
abcabcabcabcabc
```
●▲●`string lpad(string str, int len, string pad)`
-- 将 str 进行用 pad 进行左补足到 len 位
```sql
hive> select lpad('abc',10,'td') from test;
tdtdtdtabc
```
注意:与 GP,ORACLE 不同,pad 不能默认
<br/>
●▲●`string rpad(string str, int len, string pad)`
-- 将 str 进行用 pad 进行右补足到 len 位
```
hive> select rpad('abc',10,'td') from test;
abctdtdtdt
```
●▲●`int find_in_set(string str, string strList)`
-- 返回 str 在 strlist 第一次出现的位置,strlist 是用逗号分割的字符串。如果没有找到该 str 字符,则返回 0
```sql
hive> select find_in_set('ab','ef,ab,de') from test;
2
hive> select find_in_set('at','ef,ab,de') from test;
0
```
●▲●`array<array<string>> sentences(string str, string lang, string locale)`
-- 返回输入 str 分词后的单词数组
```sql
hive> select sentences('hello word!hello hive,hi hive,hellohive') from test;
OK
[["hello","word"],["hello","hive","hi","hive","hello","hive"]]
```
●▲●`array<struct<string, double>> ngrams(array<array<string>>, int N, intK, int pf)`
-- 与 sentences()函数一起使用,分词后,统计分词结果中一起出现频次最高的 TOP-K 结果
```sql
hive> SELECT ngrams(sentences('hello word!hellohive,hi hive,hello hive'),2,2)
FROM
test;
[{"ngram":["hello","hive"],"estfrequency":2.0},{"ngram":["hive","hello"],"estfreq
uency":1.0}]
```
该查询中,统计的是两个词在一起出现频次最高的 TOP-2;
结果中,hello 与 hive 同时出现 2 次
●▲●
```
array<struct<string,double>> context_ngrams(array<array<string>>,array<string>, int K, int pf)
```
-- 与 sentences()函数一起使用,分词后,统计分词结果中与数组中指定的单词一起出现(包括顺序)频次最高的 TOP-K 结果
```sql
hive>
SELECT
context_ngrams(sentences('helloword!hello hive,hi hive,hello hive')
,array('hello',null),3) FROM test;
[{"ngram":["hive"],"estfrequency":2.0},{"ngram":["word"],"estfrequency":1.0}]
```
该查询中,统计的是与’hello’一起出现,并且在 hello 后面的频次最高的TOP-3;
结果中,hello 与 hive 同时出现 2 次,hello 与 word 同时出现 1 次。
```sql
hive>
SELECT
context_ngrams(sentences('hello word!hello hive,hi hive,hello hive')
,array(null,'hive'),3) FROM test;
[{"ngram":["hello"],"estfrequency":2.0},{"ngram":["hi"],"estfrequency":1.0}]
```
该查询中,统计的是与’hive’一起出现,并且在 hive 之前的频次最高的 TOP-3
- Hadoop
- hadoop是什么?
- Hadoop组成
- hadoop官网
- hadoop安装
- hadoop配置
- 本地运行模式配置
- 伪分布运行模式配置
- 完全分布运行模式配置
- HDFS分布式文件系统
- HDFS架构
- HDFS设计思想
- HDFS组成架构
- HDFS文件块大小
- HDFS优缺点
- HDFS Shell操作
- HDFS JavaAPI
- 基本使用
- HDFS的I/O 流操作
- 在SpringBoot项目中的API
- HDFS读写流程
- HDFS写流程
- HDFS读流程
- NN和SNN关系
- NN和SNN工作机制
- Fsimage和 Edits解析
- checkpoint时间设置
- NameNode故障处理
- 集群安全模式
- DataNode工作机制
- 支持的文件格式
- MapReduce分布式计算模型
- MapReduce是什么?
- MapReduce设计思想
- MapReduce优缺点
- MapReduce基本使用
- MapReduce编程规范
- WordCount案例
- MapReduce任务进程
- Hadoop序列化对象
- 为什么要序列化
- 常用数据序列化类型
- 自定义序列化对象
- MapReduce框架原理
- MapReduce工作流程
- MapReduce核心类
- MapTask工作机制
- Shuffle机制
- Partition分区
- Combiner合并
- ReduceTask工作机制
- OutputFormat
- 使用MapReduce实现SQL Join操作
- Reduce join
- Reduce join 代码实现
- Map join
- Map join 案例实操
- MapReduce 开发总结
- Hadoop 优化
- MapReduce 优化需要考虑的点
- MapReduce 优化方法
- 分布式资源调度框架 Yarn
- Yarn 基本架构
- ResourceManager(RM)
- NodeManager(NM)
- ApplicationMaster
- Container
- 作业提交全过程
- JobHistoryServer 使用
- 资源调度器
- 先进先出调度器(FIFO)
- 容量调度器(Capacity Scheduler)
- 公平调度器(Fair Scheduler)
- Yarn 常用命令
- Zookeeper
- zookeeper是什么?
- zookeeper完全分布式搭建
- Zookeeper特点
- Zookeeper数据结构
- Zookeeper 内部原理
- 选举机制
- stat 信息中字段解释
- 选择机制中的概念
- 选举消息内容
- 监听器原理
- Hadoop 高可用集群搭建
- Zookeeper 应用
- Zookeeper Shell操作
- Zookeeper Java应用
- Hive
- Hive是什么?
- Hive的优缺点
- Hive架构
- Hive元数据存储模式
- 内嵌模式
- 本地模式
- 远程模式
- Hive环境搭建
- 伪分布式环境搭建
- Hive命令工具
- 命令行模式
- 交互模式
- Hive数据类型
- Hive数据结构
- 参数配置方式
- Hive数据库
- 数据库存储位置
- 数据库操作
- 表的创建
- 建表基本语法
- 内部表
- 外部表
- 临时表
- 建表高阶语句
- 表的删除与修改
- 分区表
- 静态分区
- 动态分区
- 分桶表
- 创建分桶表
- 分桶抽样
- Hive视图
- 视图的创建
- 侧视图Lateral View
- Hive数据导入导出
- 导入数据
- 导出数据
- 查询表数据量
- Hive事务
- 事务是什么?
- Hive事务的局限性和特点
- Hive事务的开启和设置
- Hive PLSQL
- Hive高阶查询
- 查询基本语法
- 基本查询
- distinct去重
- where语句
- 列正则表达式
- 虚拟列
- CTE查询
- 嵌套查询
- join语句
- 内连接
- 左连接
- 右连接
- 全连接
- 多表连接
- 笛卡尔积
- left semi join
- group by分组
- having刷选
- union与union all
- 排序
- order by
- sort by
- distribute by
- cluster by
- 聚合运算
- 基本聚合
- 高级聚合
- 窗口函数
- 序列窗口函数
- 聚合窗口函数
- 分析窗口函数
- 窗口函数练习
- 窗口子句
- Hive函数
- Hive函数分类
- 字符串函数
- 类型转换函数
- 数学函数
- 日期函数
- 集合函数
- 条件函数
- 聚合函数
- 表生成函数
- 自定义Hive函数
- 自定义函数分类
- 自定义Hive函数流程
- 添加JAR包的方式
- 自定义临时函数
- 自定义永久函数
- Hive优化
- Hive性能调优工具
- EXPLAIN
- ANALYZE
- Fetch抓取
- 本地模式
- 表的优化
- 小表 join 大表
- 大表 join 大表
- 开启Map Join
- group by
- count(distinct)
- 笛卡尔积
- 行列过滤
- 动态分区调整
- 分区分桶表
- 数据倾斜
- 数据倾斜原因
- 调整Map数
- 调整Reduce数
- 产生数据倾斜的场景
- 并行执行
- 严格模式
- JVM重用
- 推测执行
- 启用CBO
- 启动矢量化
- 使用Tez引擎
- 压缩算法和文件格式
- 文件格式
- 压缩算法
- Zeppelin
- Zeppelin是什么?
- Zeppelin安装
- 配置Hive解释器
- Hbase
- Hbase是什么?
- Hbase环境搭建
- Hbase分布式环境搭建
- Hbase伪分布式环境搭建
- Hbase架构
- Hbase架构组件
- Hbase数据存储结构
- Hbase原理
- Hbase Shell
- 基本操作
- 表操作
- namespace
- Hbase Java Api
- Phoenix集成Hbase
- Phoenix是什么?
- 安装Phoenix
- Phoenix数据类型
- Phoenix Shell
- HBase与Hive集成
- HBase与Hive的对比
- HBase与Hive集成使用
- Hbase与Hive集成原理
- HBase优化
- RowKey设计
- 内存优化
- 基础优化
- Hbase管理
- 权限管理
- Region管理
- Region的自动拆分
- Region的预拆分
- 到底采用哪种拆分策略?
- Region的合并
- HFile的合并
- 为什么要有HFile的合并
- HFile合并方式
- Compaction执行时间
- Compaction相关控制参数
- 演示示例
- Sqoop
- Sqoop是什么?
- Sqoop环境搭建
- RDBMS导入到HDFS
- RDBMS导入到Hive
- RDBMS导入到Hbase
- HDFS导出到RDBMS
- 使用sqoop脚本
- Sqoop常用命令
- Hadoop数据模型
- TextFile
- SequenceFile
- Avro
- Parquet
- RC&ORC
- 文件存储格式比较
- Spark
- Spark是什么?
- Spark优势
- Spark与MapReduce比较
- Spark技术栈
- Spark安装
- Spark Shell
- Spark架构
- Spark编程入口
- 编程入口API
- SparkContext
- SparkSession
- Spark的maven依赖
- Spark RDD编程
- Spark核心数据结构-RDD
- RDD 概念
- RDD 特性
- RDD编程
- RDD编程流程
- pom依赖
- 创建算子
- 转换算子
- 动作算子
- 持久化算子
- RDD 与闭包
- csv/json数据源
- Spark分布式计算原理
- RDD依赖
- RDD转换
- RDD依赖
- DAG工作原理
- Spark Shuffle原理
- Shuffle的作用
- ShuffleManager组件
- Shuffle实践
- RDD持久化
- 缓存机制
- 检查点
- 检查点与缓存的区别
- RDD共享变量
- 广播变量
- 累计器
- RDD分区设计
- 数据倾斜
- 数据倾斜的根本原因
- 定位导致的数据倾斜
- 常见数据倾斜解决方案
- Spark SQL
- SQL on Hadoop
- Spark SQL是什么
- Spark SQL特点
- Spark SQL架构
- Spark SQL运行原理
- Spark SQL编程
- Spark SQL编程入口
- 创建Dataset
- Dataset是什么
- SparkSession创建Dataset
- 样例类创建Dataset
- 创建DataFrame
- DataFrame是什么
- 结构化数据文件创建DataFrame
- RDD创建DataFrame
- Hive表创建DataFrame
- JDBC创建DataFrame
- SparkSession创建
- RDD、DataFrame、Dataset
- 三者对比
- 三者相互转换
- RDD转换为DataFrame
- DataFrame转换为RDD
- DataFrame API
- DataFrame API分类
- Action 操作
- 基础 Dataset 函数
- 强类型转换
- 弱类型转换
- Spark SQL外部数据源
- Parquet文件
- Hive表
- RDBMS表
- JSON/CSV
- Spark SQL函数
- Spark SQL内置函数
- 自定SparkSQL函数
- Spark SQL CLI
- Spark SQL性能优化
- Spark GraphX图形数据分析
- 为什么需要图计算
- 图的概念
- 图的术语
- 图的经典表示法
- Spark Graphix简介
- Graphx核心抽象
- Graphx Scala API
- 核心组件
- 属性图应用示例1
- 属性图应用示例2
- 查看图信息
- 图的算子
- 连通分量
- PageRank算法
- Pregel分布式计算框架
- Flume日志收集
- Flume是什么?
- Flume官方文档
- Flume架构
- Flume安装
- Flume使用过程
- Flume组件
- Flume工作流程
- Flume事务
- Source、Channel、Sink文档
- Source文档
- Channel文档
- Sink文档
- Flume拦截器
- Flume拦截器概念
- 配置拦截器
- 自定义拦截器
- Flume可靠性保证
- 故障转移
- 负载均衡
- 多层代理
- 多路复用
- Kafka
- 消息中间件MQ
- Kafka是什么?
- Kafka安装
- Kafka本地单机部署
- Kafka基本命令使用
- Topic的生产与消费
- 基本命令
- 查看kafka目录
- Kafka架构
- Kafka Topic
- Kafka Producer
- Kafka Consumer
- Kafka Partition
- Kafka Message
- Kafka Broker
- 存储策略
- ZooKeeper在Kafka中的作用
- 副本同步
- 容灾
- 高吞吐
- Leader均衡机制
- Kafka Scala API
- Producer API
- Consumer API
- Kafka优化
- 消费者参数优化
- 生产者参数优化
- Spark Streaming
- 什么是流?
- 批处理和流处理
- Spark Streaming简介
- 流数据处理架构
- 内部工作流程
- StreamingContext组件
- SparkStreaming的编程入口
- WordCount案例
- DStream
- DStream是什么?
- Input DStream与Receivers接收器
- DStream API
- 转换操作
- 输出操作
- 数据源
- 数据源分类
- Socket数据源
- 统计HDFS文件的词频
- 处理状态数据
- SparkStreaming整合SparkSQL
- SparkStreaming整合Flume
- SparkStreaming整合Kafka
- 自定义数据源
- Spark Streaming优化策略
- 优化运行时间
- 优化内存使用
- 数据仓库
- 数据仓库是什么?
- 数据仓库的意义
- 数据仓库和数据库的区别
- OLTP和OLAP的区别
- OLTP的特点
- OLAP的特点
- OLTP与OLAP对比
- 数据仓库架构
- Inmon架构
- Kimball架构
- 混合型架构
- 数据仓库的解决方案
- 数据ETL
- 数据仓库建模流程
- 维度模型
- 星型模式
- 雪花模型
- 星座模型
- 数据ETL处理
- 数仓分层术语
- 数据抽取方式
- CDC抽取方案
- 数据转换
- 常见的ETL工具