<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Vllm - Tag - Kiraa</title>
    <link>https://kiraa-blog.vercel.app/tags/vllm/</link>
    <description>Kiraa</description>
    <generator>Hugo 0.147.7 &amp; FixIt v0.4.3-20260123080729-2a5bd268</generator>
    <language>zh-cn</language>
    <lastBuildDate>Mon, 02 Feb 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://kiraa-blog.vercel.app/tags/vllm/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>vLLM 学习笔记</title>
      <link>https://kiraa-blog.vercel.app/post/learning-vllm/</link>
      <pubDate>Mon, 02 Feb 2026 00:00:00 +0000</pubDate>
      <guid>https://kiraa-blog.vercel.app/post/learning-vllm/</guid>
      <description>&lt;h1 class=&#34;heading-element&#34; id=&#34;什么是-vllm&#34;&gt;&lt;span&gt;什么是 vLLM&lt;/span&gt;&#xA;  &lt;a href=&#34;#%e4%bb%80%e4%b9%88%e6%98%af-vllm&#34; class=&#34;heading-mark&#34;&gt;&#xA;    &lt;svg class=&#34;octicon octicon-link&#34; viewBox=&#34;0 0 16 16&#34; version=&#34;1.1&#34; width=&#34;16&#34; height=&#34;16&#34; aria-hidden=&#34;true&#34;&gt;&lt;path d=&#34;m7.775 3.275 1.25-1.25a3.5 3.5 0 1 1 4.95 4.95l-2.5 2.5a3.5 3.5 0 0 1-4.95 0 .751.751 0 0 1 .018-1.042.751.751 0 0 1 1.042-.018 1.998 1.998 0 0 0 2.83 0l2.5-2.5a2.002 2.002 0 0 0-2.83-2.83l-1.25 1.25a.751.751 0 0 1-1.042-.018.751.751 0 0 1-.018-1.042Zm-4.69 9.64a1.998 1.998 0 0 0 2.83 0l1.25-1.25a.751.751 0 0 1 1.042.018.751.751 0 0 1 .018 1.042l-1.25 1.25a3.5 3.5 0 1 1-4.95-4.95l2.5-2.5a3.5 3.5 0 0 1 4.95 0 .751.751 0 0 1-.018 1.042.751.751 0 0 1-1.042.018 1.998 1.998 0 0 0-2.83 0l-2.5 2.5a1.998 1.998 0 0 0 0 2.83Z&#34;&gt;&lt;/path&gt;&lt;/svg&gt;&#xA;  &lt;/a&gt;&#xA;&lt;/h1&gt;&lt;p&gt;&lt;strong&gt;vLLM, virtual Large Language Model&lt;/strong&gt;, 是一个高性能、低延迟的大模型推理和部署库。目的是加速模型推理，并节省显存。其核心创新是 &lt;strong&gt;PagedAttention&lt;/strong&gt; 机制。&lt;/p&gt;&#xA;&lt;blockquote&gt;&#xA;&lt;p&gt;之前总是把模型的训练和推理混为一谈，但实际上区别还是有的。虽然两者都要进行前向传播计算，但是训练还要反向传播，而推理则更加纯粹。此外，推理面对的是更具体的落地应用场景，有高并发、大批量等需求，因此优化推理过程意义很大。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
