<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Javey 的技术博客</title>
    <link>https://javey-q.github.io/</link>
    <description>Recent content on Javey 的技术博客</description>
    <image>
      <title>Javey 的技术博客</title>
      <url>https://javey-q.github.io/images/papermod-cover.png</url>
      <link>https://javey-q.github.io/images/papermod-cover.png</link>
    </image>
    <generator>Hugo -- 0.158.0</generator>
    <language>zh-cn</language>
    <copyright>Javey</copyright>
    <lastBuildDate>Mon, 09 Feb 2026 01:55:43 +0800</lastBuildDate>
    <atom:link href="https://javey-q.github.io/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>关于</title>
      <link>https://javey-q.github.io/about/</link>
      <pubDate>Mon, 09 Feb 2026 01:55:30 +0800</pubDate>
      <guid>https://javey-q.github.io/about/</guid>
      <description>关于我</description>
    </item>
    <item>
      <title>SDXL 推理极限优化实战（三）：混合优化与吞吐工程部署</title>
      <link>https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%B8%89%E6%B7%B7%E5%90%88%E4%BC%98%E5%8C%96%E4%B8%8E%E5%90%9E%E5%90%90%E5%B7%A5%E7%A8%8B%E9%83%A8%E7%BD%B2/</link>
      <pubDate>Fri, 01 Nov 2024 00:00:00 +0000</pubDate>
      <guid>https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%B8%89%E6%B7%B7%E5%90%88%E4%BC%98%E5%8C%96%E4%B8%8E%E5%90%9E%E5%90%90%E5%B7%A5%E7%A8%8B%E9%83%A8%E7%BD%B2/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;系列导读&lt;/strong&gt;：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。&lt;a href=&#34;https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%B8%80%E6%A8%A1%E5%9E%8B%E5%89%96%E6%9E%90%E4%B8%8E%E6%80%A7%E8%83%BDprofiling/&#34;&gt;第一篇&lt;/a&gt;聚焦于问题背景与性能剖析，&lt;a href=&#34;https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%BA%8C%E5%85%A8%E9%9D%A2%E4%BC%98%E5%8C%96%E5%AE%9E%E8%B7%B5%E6%8C%87%E5%8D%97/&#34;&gt;第二篇&lt;/a&gt;展开全面的单项优化实践，本篇（终篇）进行混合组合优化与吞吐工程部署。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;在前两篇中，我们完成了 SDXL 推理的性能 Profiling 和逐项优化实践。每种单项优化都有其收益上限，而实际工程中往往需要 &lt;strong&gt;将多种优化叠加组合&lt;/strong&gt; 才能逼近性能极限。更进一步，生产部署不仅关注单次延时，更关注 &lt;strong&gt;单卡吞吐量&lt;/strong&gt;（image/s）——这需要从 Batch 策略、多实例部署、GPU 资源调度等系统层面进行优化。&lt;/p&gt;
&lt;p&gt;本篇将回答两个核心问题：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;哪些优化可以叠加？叠加后的实际效果如何？&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;如何最大化单卡吞吐？Batch、多实例、MPS 分别适合什么场景？&lt;/strong&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;实验环境&lt;/strong&gt;：NVIDIA L20, CUDA 12.x, PyTorch 2.x, 分辨率 1024×1024, 20 步（与生产环境一致）。
&lt;strong&gt;Baseline&lt;/strong&gt;：FP16, 20 步, 单张推理延时 &lt;strong&gt;3.9s&lt;/strong&gt;, 吞吐 &lt;strong&gt;0.256 image/s&lt;/strong&gt;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;1-混合优化组合实践&#34;&gt;1. 混合优化组合实践&lt;/h2&gt;
&lt;h3 id=&#34;11-组合策略设计&#34;&gt;1.1 组合策略设计&lt;/h3&gt;
&lt;p&gt;并非所有优化都能自由叠加。根据第二篇的分析，各优化作用于 Pipeline 的不同层级：&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;组合兼容性矩阵
═══════════════════════════════════════════════════════════
               torch.compile  StableFast  OneDiff  TensorRT
VAE FP16 Fix       ✅            ✅         ✅       ✅
Tiny VAE           ✅            ✅         ✅       ✅
禁用 CFG            ✅            ✅         ✅       ✅
DeepCache          ✅            ⚠️         ⚠️       ❌

⚠️ = 部分兼容，需要额外适配
❌ = 不兼容或收益冲突
═══════════════════════════════════════════════════════════
&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;组合原则：&lt;/p&gt;</description>
    </item>
    <item>
      <title>SDXL 推理极限优化实战（二）：全面优化实践指南</title>
      <link>https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%BA%8C%E5%85%A8%E9%9D%A2%E4%BC%98%E5%8C%96%E5%AE%9E%E8%B7%B5%E6%8C%87%E5%8D%97/</link>
      <pubDate>Tue, 01 Oct 2024 00:00:00 +0000</pubDate>
      <guid>https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%BA%8C%E5%85%A8%E9%9D%A2%E4%BC%98%E5%8C%96%E5%AE%9E%E8%B7%B5%E6%8C%87%E5%8D%97/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;系列导读&lt;/strong&gt;：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。&lt;a href=&#34;https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%B8%80%E6%A8%A1%E5%9E%8B%E5%89%96%E6%9E%90%E4%B8%8E%E6%80%A7%E8%83%BDprofiling/&#34;&gt;第一篇&lt;/a&gt;聚焦于问题背景与性能剖析，本篇展开全面的单项优化实践，第三篇进行混合组合优化与吞吐工程部署。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;在上一篇中，我们通过 Profiling 明确了 SDXL 推理的性能瓶颈：UNet 去噪循环占据 90%+ 的推理时间，Attention 层受限于访存带宽，大量小 Kernel 引入启动开销，CFG 使计算量翻倍。本篇将基于这些发现，&lt;strong&gt;从三个维度逐一展开优化实践&lt;/strong&gt;：&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;优化维度总览
══════════════════════════════════════════════════════
                                        精度
维度 1  数值精度优化                     无损 ──────▶ 有损
        FP32 → FP16 / BF16 / TF32      ████░░░░░░

维度 2  编译与算子层优化                 无损
        torch.compile / StableFast      ██████████
        OneDiff / TensorRT

维度 3  模型组件级优化                   无损 ──────▶ 有损
        VAE Fix / TinyVAE / CFG /       ████████░░
        DeepCache / 蒸馏 / 显存优化
══════════════════════════════════════════════════════
&lt;/code&gt;&lt;/pre&gt;&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;Baseline 约定&lt;/strong&gt;：所有实验以 &lt;strong&gt;FP16、30 步、1024×1024&lt;/strong&gt; 为基准（延时 5.5s，显存 11.24GB），在 NVIDIA L20 上执行。&lt;/p&gt;</description>
    </item>
    <item>
      <title>SDXL 推理极限优化实战（一）：模型剖析与性能 Profiling</title>
      <link>https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%B8%80%E6%A8%A1%E5%9E%8B%E5%89%96%E6%9E%90%E4%B8%8E%E6%80%A7%E8%83%BDprofiling/</link>
      <pubDate>Sun, 01 Sep 2024 00:00:00 +0000</pubDate>
      <guid>https://javey-q.github.io/posts/sdxl%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E5%AE%9E%E6%88%98%E4%B8%80%E6%A8%A1%E5%9E%8B%E5%89%96%E6%9E%90%E4%B8%8E%E6%80%A7%E8%83%BDprofiling/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;系列导读&lt;/strong&gt;：本系列共三篇文章，渐进式地探讨 Stable Diffusion XL（SDXL）模型的推理优化。第一篇聚焦于问题背景与性能剖析，第二篇展开全面的优化实践，第三篇进行混合组合优化与吞吐工程部署。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;h2 id=&#34;1-为什么要优化-sdxl-推理&#34;&gt;1. 为什么要优化 SDXL 推理？&lt;/h2&gt;
&lt;h3 id=&#34;11-sdxl-的工程地位&#34;&gt;1.1 SDXL 的工程地位&lt;/h3&gt;
&lt;p&gt;Stable Diffusion XL（SDXL）是 Stability AI 于 2023 年发布的旗舰级文生图模型，相较于 SD 1.5，它在图像质量、分辨率（原生支持 1024×1024）和语义理解能力上有了质的飞跃。SDXL 已成为开源社区中应用最广泛的高分辨率生成模型之一，广泛用于创意设计、电商素材生成、游戏概念图制作等场景。&lt;/p&gt;
&lt;p&gt;然而，更强的模型能力伴随着更高的计算开销。SDXL 的参数量达到约 &lt;strong&gt;3.5B&lt;/strong&gt;（Base UNet 2.6B + Text Encoders 等），相较于 SD 1.5 的 ~0.9B，推理成本大幅增加：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;指标&lt;/th&gt;
          &lt;th&gt;SD 1.5&lt;/th&gt;
          &lt;th&gt;SDXL&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;UNet 参数量&lt;/td&gt;
          &lt;td&gt;~860M&lt;/td&gt;
          &lt;td&gt;~2.6B&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;原生分辨率&lt;/td&gt;
          &lt;td&gt;512×512&lt;/td&gt;
          &lt;td&gt;1024×1024&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Text Encoder&lt;/td&gt;
          &lt;td&gt;CLIP ViT-L/14&lt;/td&gt;
          &lt;td&gt;CLIP ViT-L/14 + OpenCLIP ViT-bigG&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;FP32 显存占用&lt;/td&gt;
          &lt;td&gt;~4 GB&lt;/td&gt;
          &lt;td&gt;~18 GB&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;FP16 单次推理延时（30步）&lt;/td&gt;
          &lt;td&gt;~1.5s&lt;/td&gt;
          &lt;td&gt;~5.5s&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;12-优化的业务价值&#34;&gt;1.2 优化的业务价值&lt;/h3&gt;
&lt;p&gt;在生产环境中，推理性能直接决定了：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;用户体验&lt;/strong&gt;：单张图片从 5.5s 降至 2.8s，交互延迟感知有本质差异&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;服务成本&lt;/strong&gt;：GPU 是最昂贵的资源，推理加速 = 同等算力下服务更多用户&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;吞吐能力&lt;/strong&gt;：高并发场景下，从 0.25 image/s 提升到 0.37+ image/s 意味着单卡产能提升近 50%&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;13-实验环境&#34;&gt;1.3 实验环境&lt;/h3&gt;
&lt;p&gt;本系列所有实验基于以下硬件与软件环境：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
