FlashDecoding 在 FlashAttention 2 的基础上针对 LLM 推理时的 decoding 步骤进行了进一步的性能优化,其计算结果仍然是严格对齐的。
FlashDecoding 在 FlashAttention 2 的基础上针对 LLM 推理时的 decoding 步骤进行了进一步的性能优化,其计算结果仍然是严格对齐的。
FlashAttention 2 在 FlashAttention 的基础上进行了进一步的性能优化,其计算结果仍然是严格对齐的。本文仅包含对 FlashAttention 2 在前向推理上的优化,不包含反向传播相关内容。
FlashAttention 的计算结果和原始算法是严格对齐的,不是对 attention 进行近似。FlashAttention 通过分块的方式减少对全局内存的读写,从而加速运算过程。本文仅包含对 FlashAttention 在前向推理上的优化,不包含反向传播相关内容。
Stable Diffusion 推理优化 | 深度学习算法
本文简单介绍了在 Stable Diffusion 推理中常用的优化手段。
由于近现代复杂的历史因素,上海现存有大量形式多样的西式建筑,已经成为今日上海最亮眼的城市特色。自笔者四年前到上海生活以来,通过一些展览、讲座和实地参观接触到了各种各样的西式建筑,对其产生了浓厚的兴趣,也对西方建筑样式的演变有了一定了解。本文参考《西方建筑从远古到文艺复兴的演进》系列文章(廖方)和《外国建筑简史》(刘先觉),以流程图的形式将西方建筑样式从古至今的演变路线进行了梳理。
Stable Diffusion Quick Start | 深度学习算法
本文基于 Diffusers 给出了一个简单的 Stable Diffusion 简单 demo,对比了使用 LCM 的 SDXL 和原版 SDXL 的运行效率和算法效果。
本文不涉及复杂的数学推导,仅介绍原理和流程。
本文不涉及复杂的数学推导,仅介绍原理和流程。
对于小尺寸的卷积核,Winograd 卷积也是一种常用的优化方法。其基本原理是基于最小滤波算法用加法来替代乘法,以此来降低卷积运损啊的乘法复杂度。
img2col + GEMM 是一种比较常用的卷积优化方法,因为这样可以利用到性能已经优化得比较好的 BLAS 库。早期的一些深度学习框架(如 Caffe)就是用了这种方式。但是这种方式有个弊端,就是需要大量的内存/显存来存储中间结果。隐式 GEMM 卷积则可以直接从原始 feature map 和 weight 中取值,避免产生占用巨大内存/显存的中间结果矩阵。