Javey 的技术博客

关于

Mon, 09 Feb 2026 01:55:30 +0800

关于我

SDXL 推理极限优化实战（三）：混合优化与吞吐工程部署

Fri, 01 Nov 2024 00:00:00 +0000

系列导读：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，第二篇展开全面的单项优化实践，本篇（终篇）进行混合组合优化与吞吐工程部署。

在前两篇中，我们完成了 SDXL 推理的性能 Profiling 和逐项优化实践。每种单项优化都有其收益上限，而实际工程中往往需要 将多种优化叠加组合 才能逼近性能极限。更进一步，生产部署不仅关注单次延时，更关注 单卡吞吐量（image/s）——这需要从 Batch 策略、多实例部署、GPU 资源调度等系统层面进行优化。

本篇将回答两个核心问题：

哪些优化可以叠加？叠加后的实际效果如何？
如何最大化单卡吞吐？Batch、多实例、MPS 分别适合什么场景？

实验环境：NVIDIA L20, CUDA 12.x, PyTorch 2.x, 分辨率 1024×1024, 20 步（与生产环境一致）。 Baseline：FP16, 20 步, 单张推理延时 3.9s, 吞吐 0.256 image/s。

1. 混合优化组合实践

1.1 组合策略设计

并非所有优化都能自由叠加。根据第二篇的分析，各优化作用于 Pipeline 的不同层级：

组合兼容性矩阵
═══════════════════════════════════════════════════════════
               torch.compile  StableFast  OneDiff  TensorRT
VAE FP16 Fix       ✅            ✅         ✅       ✅
Tiny VAE           ✅            ✅         ✅       ✅
禁用 CFG            ✅            ✅         ✅       ✅
DeepCache          ✅            ⚠️         ⚠️       ❌

⚠️ = 部分兼容，需要额外适配
❌ = 不兼容或收益冲突
═══════════════════════════════════════════════════════════

组合原则：

SDXL 推理极限优化实战（二）：全面优化实践指南

Tue, 01 Oct 2024 00:00:00 +0000

系列导读：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，本篇展开全面的单项优化实践，第三篇进行混合组合优化与吞吐工程部署。

在上一篇中，我们通过 Profiling 明确了 SDXL 推理的性能瓶颈：UNet 去噪循环占据 90%+ 的推理时间，Attention 层受限于访存带宽，大量小 Kernel 引入启动开销，CFG 使计算量翻倍。本篇将基于这些发现，从三个维度逐一展开优化实践：

优化维度总览
══════════════════════════════════════════════════════
                                        精度
维度 1  数值精度优化                     无损 ──────▶ 有损
        FP32 → FP16 / BF16 / TF32      ████░░░░░░

维度 2  编译与算子层优化                 无损
        torch.compile / StableFast      ██████████
        OneDiff / TensorRT

维度 3  模型组件级优化                   无损 ──────▶ 有损
        VAE Fix / TinyVAE / CFG /       ████████░░
        DeepCache / 蒸馏 / 显存优化
══════════════════════════════════════════════════════

Baseline 约定：所有实验以 FP16、30 步、1024×1024 为基准（延时 5.5s，显存 11.24GB），在 NVIDIA L20 上执行。

SDXL 推理极限优化实战（一）：模型剖析与性能 Profiling

Sun, 01 Sep 2024 00:00:00 +0000

系列导读：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，第二篇展开全面的优化实践，第三篇进行混合组合优化与吞吐工程部署。

1. 为什么要优化 SDXL 推理？

1.1 SDXL 的工程地位

Stable Diffusion XL（SDXL）是 Stability AI 于 2023 年发布的旗舰级文生图模型，相较于 SD 1.5，它在图像质量、分辨率（原生支持 1024×1024）和语义理解能力上有了质的飞跃。SDXL 已成为开源社区中应用最广泛的高分辨率生成模型之一，广泛用于创意设计、电商素材生成、游戏概念图制作等场景。

然而，更强的模型能力伴随着更高的计算开销。SDXL 的参数量达到约 3.5B（Base UNet 2.6B + Text Encoders 等），相较于 SD 1.5 的 ~0.9B，推理成本大幅增加：

指标	SD 1.5	SDXL
UNet 参数量	~860M	~2.6B
原生分辨率	512×512	1024×1024
Text Encoder	CLIP ViT-L/14	CLIP ViT-L/14 + OpenCLIP ViT-bigG
FP32 显存占用	~4 GB	~18 GB
FP16 单次推理延时（30步）	~1.5s	~5.5s

1.2 优化的业务价值

在生产环境中，推理性能直接决定了：

用户体验：单张图片从 5.5s 降至 2.8s，交互延迟感知有本质差异
服务成本：GPU 是最昂贵的资源，推理加速 = 同等算力下服务更多用户
吞吐能力：高并发场景下，从 0.25 image/s 提升到 0.37+ image/s 意味着单卡产能提升近 50%

1.3 实验环境

本系列所有实验基于以下硬件与软件环境：