The fxxkcuda from bbuf

Just a simple repo to collect high performance cuda kernel.

Topic1: Reduce

关于CUDA Reduce优化其实已经有很多经典的博客了，比如willzhang的这篇：

https://zhuanlan.zhihu.com/p/416959273

这里主要挑几个点讲下：

合并访存

CUDA访问global memory是要让一个warp访问的尽可能连续，这里摘一下英伟达的PPT：

而对于实际访问，如果一个线程要访问多个元素，则需要跳blockDim.x*gridDim.x来访问

考虑到CUDA支持load128bit，我们也可以用向量化去访问，进一步提升带宽，减少指令数量，这部分在 packed_reduce.cu 里面也有体现：

    using LoadType = PackType<float, 4>; 
    for(int32_t linear_index = global_idx * kVecSize; linear_index < elem_cnt; linear_index+=step*kVecSize){
        const LoadType* x_load = reinterpret_cast<const LoadType*>(x + linear_index);
        load_pack.storage = *x_load;
        ...

他等价于：

注意的是，这里实际发生访存是转成float4类型指针后才取的值，并且此时是跨 blockDim.x * gridDim.x * 4 来取值，此时访存是连续的。

而如果是float指针，一个个取，取满4个，则实际发生访存的还是float指针，也就造成前面说的访存不连续，注意区别！

累加完Pack，再进入到下一个BlockReduce之前，我们需要对这个Pack先reduce，方法也很简单，就是一个展开的for循环：

template<typename T, int pack_size>
__device__ T PackReduce(Pack<T, pack_size> pack){
    T res = 0.0; 
    #pragma unroll
    for(int i = 0; i < pack_size; i++){
        res += pack.elem[i]; 
    }
    return res; 
}

PS：我这里情况考虑的没那么复杂，但是涉及到累加这些操作的话，如果在fp16情况下，我更建议模板类型传入一个ComputeType，设置成fp32来做累加，避免溢出

WarpReduce

willzhang博客其实是开辟了一片shared_memory来作为block中间存储，但其实我觉得blockreduce完全是够用了，在介绍BlockReduce之前，先介绍WarpReduce

CUDA执行单位还是warp，每32个线程构成一个warp。而CUDA自身也提供了一些线程束原语，我们可以借助他们来做warp级别的reduce

具体可参考NV官方的这篇博客：https://zhuanlan.zhihu.com/p/522714729

我们这里使用的是shfl_down_sync来做reduce，示意图如下：

需要注意的是，最后只有线程0才是最终正确的reduce结果

BlockReduce

这里参考的是Pytorch的BlockReduce实现

首先有个前提，BlockReduce借助warpreduce来做，因此blocksize必须是warp的整数倍

我们先让所有线程执行warpreduce
然后将每个线程束的reduce结果存储到shared memory中，注意这里是lane_id=0的线程去存储，因为前面我们提到了只有线程0上有正确的reduce结果
从shared memory把数据读取出来，最后再用一个warp对其做reduce，即可获得整个block的reduce结果

最终的Reduce？

采取blockreduce后，每个block都有部分和，而如果要最终累加到一个标量里，那么其实有两种思路：

用atomicAdd累加，但是看李少侠的说法其实会有精度问题

global memory的atomicAdd和标准的浮点加法不等价，atomicAdd对denormalized float是round to zero的，理论上两者精度不一样

启动两次Kernel，第一次Kernel reduce得到block个部分和结果。然后再启动一个只有1个block的kernel，做最终的求和

topic2: CoalescedAccess

合并访存

学习CUDA的人肯定会经常听到这个词，这篇就想简单谈下访存的几个点

基础概念

CUDA在Global Memory上访问粒度是32B，而每32B组成一个sector，一个cacheline则对应4个sector，总共大小为128B

而CUDA执行指令的单位是线程束，当发生一次访存的时候，其实是该线程束的所有线程执行访存操作。每个线程访存粒度可以是1B,2B,4B,8B,16B。下图表示的是每个线程访问了4B，一共访问了128B，即4个sector

可以看到最大访问粒度是16B=128bit，其实对应的指令就是ldg128，这也是向量化的基础。比如float类型，则可以用向量化的方式，以float4的格式一次性读4个float，减少指令数量，提高带宽

什么是合并访存

即一个线程束内的每个线程之间访问的地址需要是连续的，如上图所示

而不合并访存则是每个线程之间访问的地址是不连续的。比如我一个线程束访问第0,32,64...1024这32个位置的float数据，那么一共访问了32*4B = 128B 的数据。但实际上，第0号线程为了访问第0个位置元素，则会启动一次内存事务，大小为32B。第1号线程访问第32个位置元素，由于该位置不在上一次内存事务覆盖的范围内，所以又要启动一次内存事务。

这样一共启动了32次内存事务，32x32B = 1024B，实际只访问了128B数据。带宽利用率则为 128 / 1024 = 12.5%

向量化的错误做法导致的未合并访存

由于基础不牢固，以前犯过这个错误，自己纠结了半天后面才想通。

现在假设我们只有一个线程束（32个线程）要访问64个元素。

如果你不用向量化，每个线程跨gridDim.x * blockDim.x来循环读取

向量化的做法是每个线程用float2这个格式去访问，一次访问4B*2的数据，此时访存也是合并的。

错误的做法则是一个线程访问连续的两个float，这会导致访存不连续。

对应代码为：

__global__ void AccessKernel(float* in, float* out, int64_t elem_cnt){
    const int32_t idx = threadIdx.x; 
    out[idx*2] = in[idx*2]; 
    out[idx*2+1] = in[idx*2+1]; 
}

下面简单解释一下

在thread0访问第0号元素的时候，就发生了内存事务了，前面提到过内存事务大小是32B，这里float类型对应4个float。

那么可以看到一次内存事务包含的元素，其实只有thread0, thread1用到了。也就是说有一半都浪费了。

我们计算下，一共64个float元素，只需要256B。而经过我们这么一浪费，实际上要花费512B的内存事务才能做到：

更多关于向量化的使用，我建议可以参考OneFlow的Elementwise模板，相关博客：https://zhuanlan.zhihu.com/p/447577193

bbuf / fxxkcuda Goto Github PK

fxxkcuda's Introduction

Topic1: Reduce

合并访存

WarpReduce

BlockReduce

最终的Reduce？

topic2: CoalescedAccess

基础概念

什么是合并访存

向量化的错误做法导致的未合并访存

fxxkcuda's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent