Swift TACO 2025

Swit High Parallelism Program Generation of Tensor Operators for Accelerating Deep Learning Inference

Posted by Treaseven on September 1, 2025

Observation

  1. 主流的多级分块结构通常只把空间循环并行化,而把归约循环留在单个处理单元内部顺序做,导致在小批量/小空间并行的推理场景下,GPU处理单元数目被严重低估,用不满硬件
  2. 沿着”加大归约并行化”的方向移动时,性能先升后降,呈现比较平滑的单峰趋势 (直觉原因:一开始提升归约并行可以迅速补足算子并行度、填满硬件;但再继续加大时,额外的归约合并成本逐步主导,收益被开销抵消)

Mathodology

  • 搜索空间生成 统一分块抽象(Unified Tile Abstraction): 把空间循环和归约循环都纳入到一个统一的tile结构,允许它们同时被切分并映射到硬件的不同层级,在这个统一抽象下,系统可以自动生成合法的高并性程序,并在必要时自动插入归约操作 Loop Program Generation: 把这些tile映射到GPU的各并行层级(grid、block、thread),核心约束:一旦某个归约自循环在并行层上的tile尺寸不为1,就必须在相应层级做归约,确保语义正确