Inference

SDXL 推理极限优化实战（三）：混合优化与吞吐工程部署

系列导读：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，第二篇展开全面的单项优化实践，本篇（终篇）进行混合组合优化与吞吐工程部署。在前两篇中，我们完成了 SDXL 推理的性能 Profiling 和逐项优化实践。每种单项优化都有其收益上限，而实际工程中往往需要将多种优化叠加组合才能逼近性能极限。更进一步，生产部署不仅关注单次延时，更关注单卡吞吐量（image/s）——这需要从 Batch 策略、多实例部署、GPU 资源调度等系统层面进行优化。本篇将回答两个核心问题：哪些优化可以叠加？叠加后的实际效果如何？如何最大化单卡吞吐？Batch、多实例、MPS 分别适合什么场景？实验环境：NVIDIA L20, CUDA 12.x, PyTorch 2.x, 分辨率 1024×1024, 20 步（与生产环境一致）。 Baseline：FP16, 20 步, 单张推理延时 3.9s, 吞吐 0.256 image/s。 1. 混合优化组合实践 1.1 组合策略设计并非所有优化都能自由叠加。根据第二篇的分析，各优化作用于 Pipeline 的不同层级：组合兼容性矩阵 ═══════════════════════════════════════════════════════════ torch.compile StableFast OneDiff TensorRT VAE FP16 Fix ✅ ✅ ✅ ✅ Tiny VAE ✅ ✅ ✅ ✅ 禁用 CFG ✅ ✅ ✅ ✅ DeepCache ✅ ⚠️ ⚠️ ❌ ⚠️ = 部分兼容，需要额外适配 ❌ = 不兼容或收益冲突 ═══════════════════════════════════════════════════════════ 组合原则： ...

SDXL 推理极限优化实战（二）：全面优化实践指南

系列导读：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，本篇展开全面的单项优化实践，第三篇进行混合组合优化与吞吐工程部署。在上一篇中，我们通过 Profiling 明确了 SDXL 推理的性能瓶颈：UNet 去噪循环占据 90%+ 的推理时间，Attention 层受限于访存带宽，大量小 Kernel 引入启动开销，CFG 使计算量翻倍。本篇将基于这些发现，从三个维度逐一展开优化实践：优化维度总览 ══════════════════════════════════════════════════════ 精度维度 1 数值精度优化无损 ──────▶ 有损 FP32 → FP16 / BF16 / TF32 ████░░░░░░ 维度 2 编译与算子层优化无损 torch.compile / StableFast ██████████ OneDiff / TensorRT 维度 3 模型组件级优化无损 ──────▶ 有损 VAE Fix / TinyVAE / CFG / ████████░░ DeepCache / 蒸馏 / 显存优化 ══════════════════════════════════════════════════════ Baseline 约定：所有实验以 FP16、30 步、1024×1024 为基准（延时 5.5s，显存 11.24GB），在 NVIDIA L20 上执行。 ...

SDXL 推理极限优化实战（一）：模型剖析与性能 Profiling

系列导读：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，第二篇展开全面的优化实践，第三篇进行混合组合优化与吞吐工程部署。 1. 为什么要优化 SDXL 推理？ 1.1 SDXL 的工程地位 Stable Diffusion XL（SDXL）是 Stability AI 于 2023 年发布的旗舰级文生图模型，相较于 SD 1.5，它在图像质量、分辨率（原生支持 1024×1024）和语义理解能力上有了质的飞跃。SDXL 已成为开源社区中应用最广泛的高分辨率生成模型之一，广泛用于创意设计、电商素材生成、游戏概念图制作等场景。然而，更强的模型能力伴随着更高的计算开销。SDXL 的参数量达到约 3.5B（Base UNet 2.6B + Text Encoders 等），相较于 SD 1.5 的 ~0.9B，推理成本大幅增加：指标 SD 1.5 SDXL UNet 参数量 ~860M ~2.6B 原生分辨率 512×512 1024×1024 Text Encoder CLIP ViT-L/14 CLIP ViT-L/14 + OpenCLIP ViT-bigG FP32 显存占用 ~4 GB ~18 GB FP16 单次推理延时（30步） ~1.5s ~5.5s 1.2 优化的业务价值在生产环境中，推理性能直接决定了：用户体验：单张图片从 5.5s 降至 2.8s，交互延迟感知有本质差异服务成本：GPU 是最昂贵的资源，推理加速 = 同等算力下服务更多用户吞吐能力：高并发场景下，从 0.25 image/s 提升到 0.37+ image/s 意味着单卡产能提升近 50% 1.3 实验环境本系列所有实验基于以下硬件与软件环境： ...