Zhongtian's Technical Notes

由于近现代复杂的历史因素，上海现存有大量形式多样的西式建筑，已经成为今日上海最亮眼的城市特色。自笔者四年前到上海生活以来，通过一些展览、讲座和实地参观接触到了各种各样的西式建筑，对其产生了浓厚的兴趣，也对西方建筑样式的演变有了一定了解。本文参考《西方建筑从远古到文艺复兴的演进》系列文章（廖方）和《外国建筑简史》（刘先觉），以流程图的形式将西方建筑样式从古至今的演变路线进行了梳理。

2023-12-29发表2024-02-02更新深度学习算法4 分钟读完 (大约605个字)

Stable Diffusion Quick Start | 深度学习算法

本文基于 Diffusers 给出了一个简单的 Stable Diffusion 简单 demo，对比了使用 LCM 的 SDXL 和原版 SDXL 的运行效率和算法效果。

2023-12-23发表2024-05-09更新深度学习算法36 分钟读完 (大约5385个字)

Stable Diffusion 原理 | 深度学习算法

本文不涉及复杂的数学推导，仅介绍原理和流程。

2023-12-19发表2024-03-03更新深度学习算法37 分钟读完 (大约5484个字)

从 RNN 到 Transformer | 深度学习算法

本文不涉及复杂的数学推导，仅介绍原理和流程。

2023-12-16发表2024-01-28更新CUDA6 分钟读完 (大约951个字)

CUDA 实践：Winograd 卷积 | CUDA

对于小尺寸的卷积核，Winograd 卷积也是一种常用的优化方法。其基本原理是基于最小滤波算法用加法来替代乘法，以此来降低卷积运损啊的乘法复杂度。

2023-12-09发表2024-01-24更新CUDA10 分钟读完 (大约1496个字)

CUDA 实践：隐式 GEMM 卷积 | CUDA

img2col + GEMM 是一种比较常用的卷积优化方法，因为这样可以利用到性能已经优化得比较好的 BLAS 库。早期的一些深度学习框架（如 Caffe）就是用了这种方式。但是这种方式有个弊端，就是需要大量的内存/显存来存储中间结果。隐式 GEMM 卷积则可以直接从原始 feature map 和 weight 中取值，避免产生占用巨大内存/显存的中间结果矩阵。

分类

最新文章

归档