# 3.12。 GPU 减少
> 原文: [http://numba.pydata.org/numba-doc/latest/cuda/reduction.html](http://numba.pydata.org/numba-doc/latest/cuda/reduction.html)
为 CUDA GPU 编写缩减算法可能很棘手。 Numba 提供了一个`@reduce`装饰器,用于将简单的二进制操作转换为简化内核。
## 3.12.1。 `@reduce`
例:
```py
import numpy
from numba import cuda
@cuda.reduce
def sum_reduce(a, b):
return a + b
A = (numpy.arange(1234, dtype=numpy.float64)) + 1
expect = A.sum() # numpy sum reduction
got = sum_reduce(A) # cuda sum reduction
assert expect == got
```
Lambda 函数也可以在这里使用:
```py
sum_reduce = cuda.reduce(lambda a, b: a + b)
```
## 3.12.2。减少
`reduce`装饰器创建`Reduce`类的实例。 (目前,`reduce`是`Reduce`的别名,但不保证这种行为。)
```py
class numba.cuda.Reduce(functor)
```
```py
__call__(arr, size=None, res=None, init=0, stream=0)
```
完全减少。
| 参数: |
* **arr** - 主机或设备阵列。如果给出了设备数组,则会在原地执行缩减,并覆盖数组中的值。如果给出了主机阵列,则会自动将其复制到设备。
* **size** - 可选整数,指定要减少的`arr`中的元素数。如果未指定此参数,则会减少整个数组。
* **res** - 将减少结果写入的可选设备数组。结果写入此数组的第一个元素。如果指定了此参数,则不会从设备到主机进行减少输出的通信。
* **init** - 还原的可选初始值,其类型必须与`arr.dtype`匹配。
* **流** - 执行还原的可选 CUDA 流。如果未指定流,则使用默认流 0。
|
| --- | --- |
| 返回: | 如果指定了`res`,则返回`None`。否则,返回减少的结果。 |
| --- | --- |
```py
__init__(functor)
```
创建一个使用给定二进制函数减少值的缩减对象。二进制函数编译一次并缓存在此对象中。保持此对象存活将阻止重新编译。
| 参数: | **binop** - 要编译为 CUDA 设备函数的函数,该函数将用作 CUDA 设备上的二进制运算。在内部,它使用`cuda.jit(device=True)`编译。 |
| --- | --- |
- 1. 用户手册
- 1.1。 Numba 的约 5 分钟指南
- 1.2。概述
- 1.3。安装
- 1.4。使用@jit 编译 Python 代码
- 1.5。使用@generated_jit 进行灵活的专业化
- 1.6。创建 Numpy 通用函数
- 1.7。用@jitclass 编译 python 类
- 1.8。使用@cfunc 创建 C 回调
- 1.9。提前编译代码
- 1.10。使用@jit 自动并行化
- 1.11。使用@stencil装饰器
- 1.12。从 JIT 代码 中回调到 Python 解释器
- 1.13。性能提示
- 1.14。线程层
- 1.15。故障排除和提示
- 1.16。常见问题
- 1.17。示例
- 1.18。会谈和教程
- 2. 参考手册
- 2.1。类型和签名
- 2.2。即时编译
- 2.3。提前编译
- 2.4。公用事业
- 2.5。环境变量
- 2.6。支持的 Python 功能
- 2.7。支持的 NumPy 功能
- 2.8。与 Python 语义的偏差
- 2.9。浮点陷阱
- 2.10。 Python 2.7 寿命终止计划
- 3. 用于 CUDA GPU 的 Numba
- 3.1。概述
- 3.2。编写 CUDA 内核
- 3.3。内存管理
- 3.4。编写设备功能
- 3.5。 CUDA Python 中支持的 Python 功能
- 3.6。支持的原子操作
- 3.7。随机数生成
- 3.8。设备管理
- 3.10。示例
- 3.11。使用 CUDA 模拟器 调试 CUDA Python
- 3.12。 GPU 减少
- 3.13。 CUDA Ufuncs 和广义 Ufuncs
- 3.14。共享 CUDA 内存
- 3.15。 CUDA 阵列接口
- 3.16。 CUDA 常见问题
- 4. CUDA Python 参考
- 4.1。 CUDA 主机 API
- 4.2。 CUDA 内核 API
- 4.3。内存管理
- 5. 用于 AMD ROC GPU 的 Numba
- 5.1。概述
- 5.2。编写 HSA 内核
- 5.3。内存管理
- 5.4。编写设备功能
- 5.5。支持的原子操作
- 5.6。代理商
- 5.7。 ROC Ufuncs 和广义 Ufuncs
- 5.8。示例
- 6. 扩展 Numba
- 6.1。高级扩展 API
- 6.2。低级扩展 API
- 6.3。示例:间隔类型
- 7. 开发者手册
- 7.1。贡献给 Numba
- 7.2。 Numba 建筑
- 7.3。多态调度
- 7.4。关于发电机的注意事项
- 7.5。关于 Numba Runtime 的注意事项
- 7.6。使用 Numba Rewrite Pass 获得乐趣和优化
- 7.7。实时变量分析
- 7.8。上市
- 7.9。模板注释
- 7.10。关于自定义管道的注意事项
- 7.11。环境对象
- 7.12。哈希 的注意事项
- 7.13。 Numba 项目路线图
- 8. Numba 增强建议
- 9. 术语表