3.8 SQL Server 数据分组 · 软件测试

SQL Server中分组查询通常用于配合聚合函数，实现分类汇总统计的信息。而其分类汇总的本质实际上就是先将信息排序，排序后相同类别的信息会聚在一起，然后通过需求进行统计计算。 SQL Server中分组查询通常用于配合聚合函数，实现分类汇总统计的信息。而其分类汇总的本质实际上就是先将信息排序，排序后相同类别的信息会聚在一起，然后通过需求进行统计计算。 SQL Server中常用的数据分组相关查询如下： >[danger] ## GROUP BY- 根据指定列表达式列表中的值对查询结果进行分组。 ## SQL Server GROUP BY子句简介 `GROUP BY`子句用于按分组排列查询的行。这些分组由在`GROUP BY`子句中指定的列确定。以下是`GROUP BY`子句的语法： ~~~sql SELECT select_list FROM table_name GROUP BY column_name1, column_name2 ,...; ~~~ 在此查询语法中，`GROUP BY`子句为列中的每个值组合生成一个组。请考虑以下示例： ~~~sql SELECT customer_id, YEAR (order_date) order_year FROM sales.orders WHERE customer_id IN (1, 2) ORDER BY customer_id; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/4b/fb/4bfbf2dbf75f7f94efb75bb3abd06b2e_599x527.png) 在此示例中，检索了客户ID为`1`，列是：`customer_id`和`order_date`。从输出中可以清楚地看到，ID为`1`的客户在`2016`年下了一个订单，在`2018`年下了两个订单。ID为`2`的客户在`2017`年下了两个订单，在`2018`年下了一个订单。在查询中添加一个`GROUP BY`子句来查看效果： ~~~sql SELECT customer_id, YEAR (order_date) order_year FROM sales.orders WHERE customer_id IN (1, 2) GROUP BY customer_id, YEAR (order_date) ORDER BY customer_id; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/d7/af/d7af39c70760b274519c4cab1b53c21d_597x526.png) `GROUP BY`子句将前三行分为两组，接下来的三行分为另外两组，具有客户ID和订单年份的唯一组合。从功能上讲，上面查询中的`GROUP BY`子句产生的结果与使用`DISTINCT`子句的以下查询的结果相同： ~~~sql SELECT DISTINCT customer_id, YEAR (order_date) order_year FROM sales.orders WHERE customer_id IN (1, 2) ORDER BY customer_id; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/3b/da/3bda72f677862ce4388a827ea32ffa48_598x526.png) #### 1\. GROUP BY子句和聚合函数实际上，`GROUP BY`子句通常与聚合函数一起用于生成摘要报告。聚合函数对组执行计算并返回每个组的唯一值。例如，`COUNT()`函数返回每个组中的行数。其他常用的聚合函数是：`SUM()`，`AVG()`，`MIN()`，`MAX()`。 `GROUP BY`子句将行排列成组，聚合函数返回每个组的摘要(总数量，最小值，最大值，平均值，总和等)。例如，以下查询返回客户按年度下达的订单数： ~~~sql SELECT customer_id, YEAR (order_date) order_year, COUNT (order_id) 订单数量 FROM sales.orders WHERE customer_id IN (1, 2) GROUP BY customer_id, YEAR (order_date) ORDER BY customer_id; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/a9/05/a90512a664b5dc203b786ff24d9d748f_596x527.png) 如果要引用`GROUP BY`子句中未列出的任何列或表达式，则必须使用该列作为聚合函数的输入。否则，数据库系统将会提示错误，因为无法保证列或表达式将为每个组返回单个值。例如，以下查询将失败： ~~~sql SELECT customer_id, YEAR (order_date) order_year, order_status FROM sales.orders WHERE customer_id IN (1, 2) GROUP BY customer_id, YEAR (order_date) ORDER BY customer_id; ~~~ > 这是因为`order_status`列未在`GROUP BY`子句中。 #### 2\. 更多GROUP BY子句示例下面再举几个例子来理解`GROUP BY`子句的工作原理。 **2.1. 带有COUNT()函数示例的GROUP BY子句** 以下查询返回每个城市的客户数量： ~~~sql SELECT city, COUNT (customer_id) customer_count FROM sales.customers GROUP BY city ORDER BY city; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/7e/eb/7eeba16a6602b95fce4c0e8957ecc135_598x522.png) 在此示例中，`GROUP BY`子句按城市将客户分组，`COUNT`函数返回每个城市的客户数。同样，以下查询按州和城市返回客户数量。 ~~~sql SELECT city, state, COUNT (customer_id) customer_count FROM sales.customers GROUP BY state, city ORDER BY city, state; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/e2/d8/e2d8447aebfdeb223d0dc47e461be55a_599x528.png) **2.2. GROUP BY子句带有MIN和MAX函数示例** 以下声明返回所有型号年份为`2018`的最低和最高价产品： ~~~sql SELECT brand_name, MIN (list_price) min_price, MAX (list_price) max_price FROM production.products p INNER JOIN production.brands b ON b.brand_id = p.brand_id WHERE model_year = 2018 GROUP BY brand_name ORDER BY brand_name; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/b4/6d/b46d0a93f2d860c131d6b5185015a3d5_596x527.png) 在此示例中，`WHERE`子句在`GROUP BY`子句之前。 **2.3. 带有AVG()函数示例的GROUP BY子句** 以下语句使用`AVG()`函数返回型号年份为`2018`年的所有产品的平均价格： ~~~sql SELECT brand_name, AVG (list_price) avg_price FROM production.products p INNER JOIN production.brands b ON b.brand_id = p.brand_id WHERE model_year = 2018 GROUP BY brand_name ORDER BY brand_name; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/47/ea/47ea415c5bbd08e3f5cae5f30c0d1e84_597x523.png) **2.4. 带有SUM函数示例的GROUP BY子句** 请参阅以下`order_items`表： ![](https://www.yiibai.com/uploads/article/2019/02/20/171200_52615.png) 以下查询使用`SUM()`函数获取每个订单的净值： ~~~sql SELECT order_id, SUM ( quantity * list_price * (1 - discount) ) net_value FROM sales.order_items GROUP BY order_id; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/8b/a2/8ba2bde750aa9b5f4994320a3d57d039_596x525.png) >[danger] ## HAVING - 指定组或聚合的搜索条件。在本教程中，将学习如何使用SQL Server `HAVING`子句根据指定的条件筛选组。 `HAVING`子句通常与GROUP BY子句一起使用，以根据指定的条件列表过滤分组。以下是`HAVING`子句的语法： ~~~sql SELECT select_list FROM table_name GROUP BY group_list HAVING conditions; ~~~ 在此语法中，`GROUP BY`子句将行汇总为分组，`HAVING`子句将一个或多个条件应用于这些每个分组。只有使条件评估为`TRUE`的组才会包含在结果中。换句话说，过滤掉条件评估为`FALSE`或`UNKNOWN`的组。因为SQL Server在`GROUP BY`子句之后处理`HAVING`子句，所以不能通过使用列别名来引用选择列表中指定的聚合函数。以下查询将失败： ~~~sql SELECT column_name1, column_name2, aggregate_function (column_name3) column_alias FROM table_name GROUP BY column_name1, column_name2 HAVING column_alias > value; ~~~ 必须明确使用`HAVING`子句中的聚合函数表达式，如下所示： ~~~sql SELECT column_name1, column_name2, aggregate_function (column_name3) alias FROM table_name GROUP BY column_name1, column_name2 HAVING aggregate_function (column_name3) > value; ~~~ ## SQL Server HAVING示例下面举一些例子来理解`HAVING`子句的工作原理。 #### 1\. HAVING子句与COUNT函数示例请参阅示例数据库中的以下`orders`表： ![](https://www.yiibai.com/uploads/article/2019/02/21/093953_42725.png) 以下声明查找每年至少下过两个订单的客户： ~~~sql SELECT customer_id, YEAR (order_date), COUNT (order_id) order_count FROM sales.orders GROUP BY customer_id, YEAR (order_date) HAVING COUNT (order_id) >= 2 ORDER BY customer_id; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/14/91/1491653564436703a94ddf616eefbe3e_595x527.png) 在上面查询示例中， * 首先，`GROUP BY`子句按客户和订单年份对销售订单进行分组。 `COUNT()`函数返回每个客户每年下达的订单数。 * 其次，`HAVING`子句筛选出订单数至少为`2`的所有客户。 #### 2\. HAVING子句与SUM()函数的例子请考虑以下`order_items`表： ![](https://www.yiibai.com/uploads/article/2019/02/21/094308_46588.png) 以下语句查找净值大于`20000`的销售订单： ~~~sql SELECT order_id, SUM ( quantity * list_price * (1 - discount) ) net_value FROM sales.order_items GROUP BY order_id HAVING SUM ( quantity * list_price * (1 - discount) ) > 20000 ORDER BY net_value; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/47/c5/47c502ffff416cbf5099bab6f6944c98_640x530.png) 在这个例子中： * 首先，`SUM`函数计算销售订单的净值。 * 其次，`HAVING`子句过滤净值小于或等于`20000`的销售订单。 #### 3\. HAVING子句与MAX和MIN函数的示例请参阅以下`products`表： ![](https://www.yiibai.com/uploads/article/2019/02/21/094541_69955.png) 以下语句首先查找每个产品类别中的最大和最小价格。然后，它筛选出最大价格大于`4000`或最小价格小于`500`的类别： ~~~sql SELECT category_id, MAX (list_price) max_list_price, MIN (list_price) min_list_price FROM production.products GROUP BY category_id HAVING MAX (list_price) > 4000 OR MIN (list_price) < 500; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/f4/9a/f49a207e49385f1ed986796538efa25e_639x528.png) #### 4\. HAVING子句与AVG()函数示例以下语句查找平均价格介于`500`和`1000`之间的产品类别： ~~~sql SELECT category_id, AVG (list_price) avg_list_price FROM production.products GROUP BY category_id HAVING AVG (list_price) BETWEEN 500 AND 1000; ~~~ 执行上面查询语句，得到以下结果： ![](https://www.yiibai.com/uploads/article/2019/02/21/095420_36238.png) >[danger] ## GROUPING SETS - 生成多个分组集。 #### 设置销售摘要表为了方便演示，下面创建一个名为`sales.sales_summary`的新表。 ~~~sql SELECT b.brand_name AS brand, c.category_name AS category, p.model_year, round( SUM ( quantity * i.list_price * (1 - discount) ), 0 ) sales INTO sales.sales_summary FROM sales.order_items i INNER JOIN production.products p ON p.product_id = i.product_id INNER JOIN production.brands b ON b.brand_id = p.brand_id INNER JOIN production.categories c ON c.category_id = p.category_id GROUP BY b.brand_name, c.category_name, p.model_year ORDER BY b.brand_name, c.category_name, p.model_year; ~~~ 在此查询中，按品牌和类别检索销售额数据，并将其填充到`sales.sales_summary`表中。以下查询从`sales.sales_summary`表返回数据： ![](https://img.kancloud.cn/04/7e/047e71b09504f85d38552e291fdd695c_639x524.png) #### SQL Server GROUPING SETS入门根据定义，分组集是分组的一组列。通常，具有聚合的单个查询定义单个分组集。例如，以下查询定义了一个分组集，其中包括品牌和类别，表示为(品牌，类别)。查询返回按品牌和类别分组的销售额： ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY brand, category ORDER BY brand, category; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/cb/45/cb454564fd26d9529828e929da5ecc7a_639x532.png) 以下查询按品牌返回销售额。它定义了一个分组集(品牌)： ~~~sql SELECT brand, SUM (sales) sales FROM sales.sales_summary GROUP BY brand ORDER BY brand; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/8f/c1/8fc133d4e4878226b2c6c4f7ed00f708_642x527.png) 以下查询按类别返回销售额。它定义了一个分组集(类别)： ~~~sql SELECT category, SUM (sales) sales FROM sales.sales_summary GROUP BY category ORDER BY category; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/01/2e/012ec51e2833d49db3cc47632d37181f_634x497.png) 以下查询定义空分组集。它返回所有品牌和类别的销售额。 ~~~sql SELECT SUM (sales) sales FROM sales.sales_summary; ~~~ 执行上面查询语句，得到以下结果： ![](https://www.yiibai.com/uploads/article/2019/02/21/100254_38181.png) 上面的四个查询返回四个结果集，其中包含四个分组集： ~~~shell (brand, category) (brand) (category) () ~~~ 要使用所有分组集的聚合数据获得统一的结果集，可以使用`UNION ALL`运算符。由于UNION ALL运算符要求所有结果集具有相同数量的列，因此需要将NULL添加到查询的选择列表中，如下所示： ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY brand, category UNION ALL SELECT brand, NULL, SUM (sales) sales FROM sales.sales_summary GROUP BY brand UNION ALL SELECT NULL, category, SUM (sales) sales FROM sales.sales_summary GROUP BY category UNION ALL SELECT NULL, NULL, SUM (sales) FROM sales.sales_summary ORDER BY brand, category; ~~~ 执行上面查询语句，得到以下结果： ![](https://www.yiibai.com/uploads/article/2019/02/21/100720_22578.png) 该查询生成了一个结果，其中包含了我们所期望的所有分组集的聚合。但是，它有以下两个主要问题： * 查询非常冗长(看起来是不是很累？) * 查询很慢，因为SQL Server需要执行四个查询并将结果集合并为一个查询。为了解决这些问题，SQL Server提供了一个名为`GROUPING SETS`的`GROUP BY`子句的子句。 `GROUPING SETS`在同一查询中定义多个分组集。以下是`GROUPING SETS`的一般语法： ~~~sql SELECT column1, column2, aggregate_function (column3) FROM table_name GROUP BY GROUPING SETS ( (column1, column2), (column1), (column2), () ); ~~~ 此查询创建四个分组集： ~~~shell (column1,column2) (column1) (column2) () ~~~ 使用此`GROUPING SETS`重写获取销售数据的查询，如下所示： ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY GROUPING SETS ( (brand, category), (brand), (category), () ) ORDER BY brand, category; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/1c/cf/1ccf9de2555b3fbb62f5067b923c6ee2_638x431.png) 如上所示，查询产生的结果与使用`UNION ALL`运算符的结果相同。但是，此查询更具可读性，当然也更有效。 **GROUPING函数** `GROUPING`函数指示是否聚合`GROUP BY`子句中的指定列。它是聚合则返回`1`，或者为结果集是未聚合返回`0`。请参阅以下查询示例： ~~~sql SELECT GROUPING(brand) grouping_brand, GROUPING(category) grouping_category, brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY GROUPING SETS ( (brand, category), (brand), (category), () ) ORDER BY brand, category; ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/7b/9e/7b9ee912c64e43c6a102d221b041fbf5_635x428.png) `grouping_brand`列中的值表示该行是否已聚合，`1`表示销售额按品牌汇总，`0`表示销售金额未按品牌汇总。相同的概念应用于`grouping_category`列。 >[danger] ## CUBE - 生成包含维列的所有组合的分组集。 ## SQL Server CUBE简介分组集在单个查询中指定数据分组。例如，以下查询定义表示为(品牌)的单个分组集： ~~~sql SELECT brand, SUM(sales) FROM sales.sales_summary GROUP BY brand; ~~~ 如果您没有学习过GROUPING SETS的使用，可使用以下查询创建`sales.sales_summary`表： ~~~sql SELECT b.brand_name AS brand, c.category_name AS category, p.model_year, round( SUM ( quantity * i.list_price * (1 - discount) ), 0 ) sales INTO sales.sales_summary FROM sales.order_items i INNER JOIN production.products p ON p.product_id = i.product_id INNER JOIN production.brands b ON b.brand_id = p.brand_id INNER JOIN production.categories c ON c.category_id = p.category_id GROUP BY b.brand_name, c.category_name, p.model_year ORDER BY b.brand_name, c.category_name, p.model_year; ~~~ 即使以下查询不使用GROUP BY子句，它也会生成一个空的分组集，表示为`()`。 ~~~sql SELECT SUM(sales) FROM sales.sales_summary GROUP BY brand; ~~~ `CUBE`是`GROUP BY`子句的子句，用于生成多个分组集。以下是`CUBE`的一般语法： ~~~sql SELECT d1, d2, d3, aggregate_function (c4) FROM table_name GROUP BY CUBE (d1, d2, d3); ~~~ 在此语法中，`CUBE`根据在`CUBE`子句中指定的维度列：`d1`，`d2`和`d3`生成所有可能的分组集。上面的查询返回与以下查询相同的结果集，该查询使用`GROUPING SETS`： ~~~sql SELECT d1, d2, d3, aggregate_function (c4) FROM table_name GROUP BY GROUPING SETS ( (d1,d2,d3), (d1,d2), (d1,d3), (d2,d3), (d1), (d2), (d3), () ); ~~~ 如果在多维数据集中指定了`N`维列，则将具有`2N`个分组集。通过部分使用`CUBE`可以减少分组集的数量，如以下查询所示： ~~~sql SELECT d1, d2, d3, aggregate_function (c4) FROM table_name GROUP BY d1, CUBE (d2, d3); ~~~ 在这种情况下，查询生成四个分组集，因为在`CUBE`中只指定了两个维列。 ## SQL Server CUBE示例以下语句使用`CUBE`生成四个分组集： ~~~shell (brand, category) (brand) (category) () ~~~ 参考以下查询语句： ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY CUBE(brand, category); ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/ef/44/ef44275f2064b064602b0aa130e41806_638x525.png) 在此示例中，在`CUBE`子句中指定了两个维列，因此，我们总共有四个分组集。以下示例说明如何执行部分`CUBE`以减少查询生成的分组集的数量： ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY brand, CUBE(category); ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/e5/64/e5648ef71b8b28b5f3b0b98bfe050685_639x523.png) >[danger] ## ROLLUP - 生成分组集，假设输入列之间存在层次结构。 ## SQL Server ROLLUP简介 SQL Server `ROLLUP`是`GROUP BY`子句的子句，它提供了定义多个分组集的简写。与CUBE子句不同，`ROLLUP`不会根据维度列创建所有可能的分组集; `CUBE`是其中的一部分。生成分组集时，`ROLLUP`假定维度列之间存在层次结构，并且仅基于此层次结构生成分组集。 `ROLLUP`通常用于生成小计和总计来生成报告目的。考虑一个例子。以下`CUBE(d1，d2，d3)`定义了八个可能的分组集： ~~~sql (d1, d2, d3) (d1, d2) (d2, d3) (d1, d3) (d1) (d2) (d3) () ~~~ 并且`ROLLUP(d1，d2，d3)`仅创建四个分组集，假设层次结构`d1> d2> d3`，如下所示： ~~~sql (d1, d2, d3) (d1, d2) (d1) () ~~~ `ROLLUP`通常用于计算分层数据的聚合，例如：按年>季度>月的销售额。 ## SQL Server ROLLUP语法 SQL Server `ROLLUP`的一般语法如下： ~~~sql SELECT d1, d2, d3, aggregate_function(c4) FROM table_name GROUP BY ROLLUP (d1, d2, d3); ~~~ 在此语法中，`d1`，`d2`和`d3`是维列。该语句将根据层次结构`d1> d2> d3`计算列`c4`中的值的聚合。还可以执行部分汇总以减少使用以下语法生成的小计： ~~~sql SELECT d1, d2, d3, aggregate_function(c4) FROM table_name GROUP BY d1, ROLLUP (d2, d3); ~~~ ## SQL Server ROLLUP示例在这个示例中将重用在GROUPING SETS教程中创建的`sales.sales_summary`表进行演示。如果尚未创建`sales.sales_summary`表，则可以使用以下语句创建它。 ~~~sql SELECT b.brand_name AS brand, c.category_name AS category, p.model_year, round( SUM ( quantity * i.list_price * (1 - discount) ), 0 ) sales INTO sales.sales_summary FROM sales.order_items i INNER JOIN production.products p ON p.product_id = i.product_id INNER JOIN production.brands b ON b.brand_id = p.brand_id INNER JOIN production.categories c ON c.category_id = p.category_id GROUP BY b.brand_name, c.category_name, p.model_year ORDER BY b.brand_name, c.category_name, p.model_year; ~~~ 以下查询使用`ROLLUP`按品牌(小计)以及品牌和类别(总计)计算销售额。 ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY ROLLUP(brand, category); ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/fe/03/fe03766d614a68327bb92f8233ec3fb6_640x528.png) 在此示例中，查询假定品牌和类别之间存在层次结构，即：品牌>类别。请注意，如果更改品牌和类别的顺序，结果将会有所不同，如以下查询所示： ~~~sql SELECT category, brand, SUM (sales) sales FROM sales.sales_summary GROUP BY ROLLUP (category, brand); ~~~ 在此示例中，层次结构是类别>品牌，执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/a9/2a/a92a8fc557a9e165e5ff9183c21c9f7a_640x528.png) 以下语句显示了如何执行部分汇总： ~~~sql SELECT brand, category, SUM (sales) sales FROM sales.sales_summary GROUP BY brand, ROLLUP (category); ~~~ 执行上面查询语句，得到以下结果： ![](https://img.kancloud.cn/e1/0d/e10d6946d7786cfabfa7b95fddddca70_641x527.png)