15 分钟了解大模型：从 Token、矩阵运算到 RAG 与 Agent

大模型最容易被误解成一个“会聊天的软件”。这个说法太轻了，也容易遮住真正的技术核心。更准确的理解是：大模型是一套把自然语言、代码、图像、音频等信息映射到高维向量空间，再通过大规模矩阵计算完成理解、推理和生成的通用模型系统。

用户看到的是一句自然语言回答，机器内部发生的是 Token 编码、向量查表、位置编码、注意力计算、前馈网络、概率分布、采样解码、缓存复用、上下文拼装等一连串计算。大模型的能力并不来自某个神秘模块，而来自规模化训练、Transformer 架构、海量数据、算力堆叠、对齐技术以及工程系统的共同作用。

在业务系统里，大模型也不是孤立存在的。它通常和知识库、搜索、数据库、代码执行器、浏览器、企业系统 API 一起工作。模型负责理解和生成，外部系统负责提供事实、权限、状态和动作能力。大模型真正进入生产环境时，核心问题往往不再是“模型会不会回答”，而是“回答是否可信、成本是否可控、延迟是否可接受、权限是否安全、是否能稳定接入业务流程”。

大模型到底在做什么

大语言模型的基础任务是预测下一个 Token。

给定一段输入：

人工智能正在改变

模型要计算下一个 Token 最可能是什么。可能是“软件”、可能是“教育”、可能是“生产方式”，也可能是其他词。模型会为整个词表里的每个候选 Token 计算一个概率，再根据解码策略选择其中一个输出。

这个过程不断重复，就形成了完整回答：

人工智能正在改变软件开发、知识管理和企业协作方式。

看起来像是在“写句子”，底层其实是连续的条件概率建模：

P(token_t | token_1, token_2, ..., token_t-1)

也就是说，模型每一步都在根据前文预测下一个最合适的 Token。训练规模足够大、数据足够丰富、模型容量足够高时，这种简单目标会涌现出翻译、摘要、代码生成、推理、写作、问答等复杂能力。

这也是大模型和传统软件最大的差异。传统软件靠工程师显式写规则，大模型靠训练过程从数据中学习统计规律和语义结构。传统软件面对输入时执行固定逻辑，大模型面对输入时计算概率分布。传统软件的错误通常来自代码分支，大模型的错误常常来自上下文不足、检索错误、概率采样、训练数据偏差或对齐不足。

Token：模型眼里的语言单位

大模型不能直接处理“文字”。所有文本进入模型前，都会先经过 tokenizer，被切成 Token，再映射成整数 ID。

例如：

大模型知识库

可能被切成：

大 / 模型 / 知识 / 库

也可能被切成：

大模型 / 知识库

具体切法取决于模型使用的 tokenizer 和词表。英文里，一个单词可能是一个 Token，也可能被拆成多个子词；中文里，一个词、一个字、一个常见短语都可能成为 Token；代码、标点、空格、换行也都会被编码。

Token 很重要，因为大模型的成本、上下文长度和生成速度都围绕 Token 计算。API 计费通常按输入 Token 和输出 Token 收费；上下文窗口说的 32K、128K、1M，本质上都是 Token 数；模型生成回答时，也是一个 Token 一个 Token 地输出。

同一句话，在不同语言和不同 tokenizer 下消耗的 Token 数可能不同。这也是为什么长文档问答、代码分析、知识库系统都必须关注 Token 预算。把大量无关资料塞进 prompt，不仅会增加费用，还会拉长推理时间，甚至稀释真正重要的信息。

编码与解码：文本如何变成向量

大模型处理文本的第一步是编码。

文本
  ↓
Tokenizer
  ↓
Token ID
  ↓
Embedding
  ↓
Transformer

Tokenizer 把文本转成 Token ID 后，模型会通过 embedding 表把每个 ID 映射成一个高维向量。可以把 embedding 理解为模型内部的语义坐标。

例如某个 Token 可能被映射成：

[0.12, -0.44, 0.08, 1.37, ...]

真实模型里的向量维度可能是几千甚至上万维。这些数字不是人工设定的，而是在训练中学出来的。语义相近、语法功能相近、经常出现在相似上下文里的 Token，在向量空间里往往会形成某种接近关系。

但只有 Token embedding 还不够。句子里的词有顺序，“我打你”和“你打我”的 Token 相同，意思完全不同。模型还需要位置编码，让每个 Token 知道自己在序列中的位置。位置编码可以是绝对位置，也可以是 RoPE 这类旋转位置编码。长上下文模型能处理更长文本，背后往往也涉及位置编码、注意力机制、训练策略和推理优化的配套改造。

输出阶段则是解码。Transformer 最后一层会输出一个 logits 向量，表示词表中每个 Token 的未归一化分数。经过 softmax 后得到概率分布，再用 greedy、top-k、top-p、temperature 等策略选出下一个 Token。

temperature 越低，输出越稳定；temperature 越高，输出越发散。做知识库问答、制度查询、代码修复时，通常希望 temperature 低一点；做创意写作、命名、头脑风暴时，可以适当提高。

Transformer：大模型的主干结构

现代大模型的核心架构主要来自 Transformer。它最关键的机制是 Attention，也就是注意力机制。

Attention 要解决的问题是：当前 Token 在理解上下文时，应该关注哪些 Token。

例如：

小王把合同交给小李，因为他负责审批。

模型需要判断“他”更可能指向“小李”。传统序列模型很难稳定处理这种长距离依赖，Attention 则允许每个 Token 直接和上下文中的其他 Token 建立关联。

Attention 的经典公式是：

Attention(Q, K, V) = softmax(QK^T / sqrt(d))V

这里有三个核心向量：

Q = Query
K = Key
V = Value

可以把它类比成一次可学习的信息检索。Query 表示当前 Token 想查什么，Key 表示上下文中每个 Token 提供什么索引特征，Value 表示每个 Token 真正携带的信息内容。模型先用 Q 和 K 计算相关性，再用相关性权重去加权聚合 V。

输入矩阵 X 会分别乘以三个权重矩阵：

Q = XWq
K = XWk
V = XWv

这些都是矩阵乘法。大模型看似在理解语言，本质上是在高维空间里不断做线性变换、归一化、非线性激活和矩阵乘法。

多头注意力则是让模型从多个角度看上下文。有的头可能更关注语法关系，有的头可能更关注实体指代，有的头可能更关注代码括号匹配，有的头可能更关注段落主题。多个注意力头的结果会被拼接，再进入后续网络层。

Transformer 层通常还包含 Feed Forward Network。注意力负责在 Token 之间交换信息，前馈网络负责对每个位置上的表示进行更复杂的变换。很多模型的大部分计算量，其实都消耗在这些巨大的矩阵乘法上。

矩阵运算：大模型为什么需要 GPU

大模型推理的底层形态是矩阵运算。

假设一个模型的隐藏维度是 4096，输入序列长度是 2048，那么输入可以看作一个矩阵：

X: [2048, 4096]

它会和各种权重矩阵相乘，得到 Q、K、V、前馈网络中间状态以及最终输出。模型层数越多、隐藏维度越大、上下文越长，需要的计算和显存就越多。

GPU 适合大模型，不是因为 GPU “更聪明”，而是因为 GPU 擅长并行矩阵计算。成千上万个小计算核心可以同时处理大量乘加操作。训练阶段需要处理海量样本和反向传播，推理阶段也需要在每个 Token 生成时执行大量矩阵乘法。

模型越大，能力通常越强，但成本也越高。参数量增加会带来更高的显存占用；上下文变长会增加 attention 和 KV Cache 的开销；输出越长，解码循环越久。工程系统必须在模型能力、响应速度、成本和用户体验之间做权衡。

这也是小模型越来越重要的原因。并不是所有任务都需要最强模型。分类、摘要、简单问答、格式转换、文本改写、客服初筛、意图识别，很多场景可以用更小、更快、更便宜的模型完成。强模型更适合复杂推理、长链路任务、高价值决策和需要高可靠性的场景。

训练：模型能力从哪里来

大模型能力主要来自三个阶段：预训练、指令微调、对齐。

预训练让模型学习语言、事实、代码和世界知识。训练数据通常包括网页、书籍、论文、代码、问答、论坛、文档等。训练目标很朴素，就是根据前文预测下一个 Token。这个阶段成本最高，也决定了模型的基础能力上限。

指令微调让模型学会“听指令”。预训练模型更像一个续写器，给它一句话，它会自然延续下去，但不一定按用户意图完成任务。指令微调用大量“指令-回答”样本继续训练，让模型学会总结、翻译、分类、抽取、写代码、回答问题、遵守格式。

对齐让模型更符合人类偏好和安全要求。常见方式包括 RLHF 和 RLAIF。它们会利用人类或 AI 反馈，让模型倾向于生成更有帮助、更安全、更清晰、更少攻击性的回答。对齐并不等于让模型拥有真理判断能力，它只是让输出更接近人类期望。

训练也解释了大模型的边界。模型不是数据库。它在预训练中压缩了大量知识，但这些知识可能过时、缺失、混杂甚至错误。企业内部文档、最新业务规则、用户私有数据通常不在训练集中。要让模型回答最新、私有、可追溯的问题，不能只靠模型记忆，需要接入外部知识。

推理：回答是怎样生成出来的

推理可以分成两个阶段：prefill 和 decode。

prefill 阶段处理完整输入。用户问题、系统提示词、历史对话、检索资料都会被一起送入模型，模型计算每个位置的中间状态，并为后续生成准备 K/V 缓存。

decode 阶段逐 Token 生成回答。每生成一个新 Token，模型都会把它追加到上下文中，再预测下一个 Token。这个过程会循环直到遇到结束符、达到最大长度，或被外部系统中断。

长 prompt 的主要成本在 prefill。输出很长的主要成本在 decode。知识库系统如果每次都塞入大量文档片段，prefill 会变慢；写长报告、长代码、长分析时，decode 会持续占用推理资源。

工程优化通常围绕这些成本展开。比如减少无关上下文、缓存常见问题、缩短输出、拆分任务、用小模型做前置处理、用重排序减少输入片段、为不同任务选择不同模型。

KV Cache：推理加速的关键缓存

自回归大模型每次生成新 Token 时，都需要利用前面所有 Token 的上下文。如果每一步都重新计算历史 Token 的 Key 和 Value，计算量会非常浪费。

KV Cache 的做法是把历史 Token 已经算好的 K 和 V 保存起来。下一步生成时，只需要计算新 Token 的 Q/K/V，然后复用历史 K/V。

简化流程如下：

第 1 个 Token：计算 K1, V1，写入缓存
第 2 个 Token：计算 K2, V2，复用 K1, V1
第 3 个 Token：计算 K3, V3，复用 K1, V1, K2, V2

KV Cache 能显著提升解码速度，但会消耗显存。上下文越长，层数越多，注意力头越多，缓存越大。多用户并发时，每个请求都可能占用一份 KV Cache，显存压力会快速上升。

这对产品设计很直接。超长上下文不是免费能力。把 100 页资料塞进 prompt，可能能回答，但成本、延迟和显存都会上升。成熟系统更倾向于先检索、压缩、重排，只把最相关的信息送给模型。

RAG：让模型连接外部知识

RAG 是 Retrieval-Augmented Generation，检索增强生成。它是大模型落地知识库、客服、企业文档问答时最常见的架构。

基本链路是：

用户问题
  ↓
问题改写 / 意图识别
  ↓
向量检索 + 关键词检索
  ↓
Rerank 重排序
  ↓
拼装上下文
  ↓
大模型生成回答
  ↓
引用来源与校验

RAG 的价值是把模型从“凭记忆回答”改成“先查资料再回答”。企业制度、产品说明、技术文档、项目资料、客服话术都可以先切分成 chunk，生成 embedding，写入向量库。用户提问时，系统把问题也转成 embedding，再检索语义相近的文档片段。

向量检索擅长语义匹配。用户问“怎么报销差旅费”，系统可以找到“差旅费用报销流程”，即使字面不完全一致。关键词检索擅长精确匹配，适合错误码、合同编号、API 名、产品型号、人名等。实际系统通常会混合使用，再通过 rerank 模型重新排序。

RAG 不是把所有文档塞给模型。真正影响效果的是切分、召回、重排、权限过滤、上下文组织和引用校验。文档切得太碎，语义不完整；切得太大，召回不精准、Token 成本高。召回不足，模型没资料；召回太多，模型被噪声干扰。

可靠的 RAG 系统还要允许模型拒答。如果检索结果置信度低，或者资料中没有依据，答案应该说明无法确认，而不是靠预训练知识补全。知识库问答的第一目标不是流畅，而是可信。

Agent：从回答问题到执行任务

Agent 是大模型系统进一步工程化后的形态。它让模型不仅生成文本，还能规划步骤、调用工具、观察结果、继续行动。

一个简单 Agent 的循环通常是：

理解目标
  ↓
制定下一步
  ↓
调用工具
  ↓
读取结果
  ↓
更新计划
  ↓
继续执行或结束

工具可以是搜索引擎、浏览器、数据库、代码解释器、日历、邮件、CRM、工单系统、部署平台，也可以是企业内部 API。模型负责决定什么时候调用什么工具，工具负责返回真实世界的状态。

Agent 的价值在复杂任务中更明显。比如“整理最近一个月客户反馈并生成产品改进建议”，它可能需要搜索工单、聚类问题、读取产品文档、统计频次、生成报告。单次问答无法完成这类任务，Agent 可以把它拆成多个步骤。

但 Agent 也带来风险。模型可能选错工具、误解结果、循环不停止、执行高风险动作。生产系统通常需要权限控制、工具白名单、人工确认、步骤日志、执行边界和失败回滚。尤其涉及发邮件、付款、删数据、改配置、部署代码时，不能让模型无约束执行。

多模态：输入输出不再只有文字

大模型正在从纯文本走向多模态。多模态模型可以处理图片、音频、视频、文档版面和屏幕截图。它们背后的思路仍然是把不同模态编码成模型可处理的向量表示，再在统一空间里进行推理和生成。

图片理解可以用于票据识别、图表分析、界面检查、工业质检、医学影像辅助。音频能力可以用于语音助手、会议纪要、客服质检。视频理解可以用于监控分析、课程总结、内容审核。文档理解可以处理 PDF、表格、扫描件和混合版面。

多模态让大模型更接近真实工作场景。企业里的知识并不只存在于纯文本里，更多时候分散在图片、表格、PPT、录音、视频和系统截图中。模型如果只能读纯文本，很多业务流程仍然需要人工转换。多模态能力提升后，AI 可以直接处理更原始的信息形态。

幻觉：大模型为什么会编造

幻觉是大模型最核心的风险之一。它指模型生成了看似合理但实际错误的信息。

幻觉不是偶然小毛病，而是生成式模型机制的一部分。模型的目标是生成高概率文本，不是天然验证事实真伪。当上下文不足、问题模糊、检索错误、训练数据缺失时，模型仍然可能生成一个流畅答案。

降低幻觉需要系统工程，而不是一句 prompt 就能解决。常见手段包括：

使用 RAG 提供外部资料
要求答案引用来源
检索分数低时拒答
对数字、日期、金额、法规条款做二次校验
对关键动作增加人工确认
对模型输出做结构化验证
用评测集持续测试回答质量

业务场景越严肃，越不能把“回答流畅”当成“回答正确”。法律、医疗、财务、制度、合同、客户承诺、生产运维等场景，都需要更强的验证链路。

大模型应用的工程架构

一个典型的大模型应用通常不是一个 API 调用，而是一套完整链路：

前端交互
  ↓
鉴权与限流
  ↓
Prompt 编排
  ↓
检索 / 工具调用
  ↓
模型推理
  ↓
结果校验
  ↓
日志与评测

Prompt 编排负责把系统规则、用户问题、历史上下文、工具结果、检索资料组合成模型输入。鉴权负责判断用户能访问哪些资料和工具。限流负责控制成本和防止滥用。日志负责追踪问题，评测负责持续改进质量。

在生产环境里，模型调用只是其中一层。真正决定体验的是整条链路的稳定性：资料是否新，检索是否准，权限是否正确，失败是否可恢复，成本是否有上限，回答是否可追溯。

这也是为什么很多 AI 项目从 demo 到生产会遇到落差。Demo 阶段只要回答看起来不错；生产阶段要面对权限、并发、延迟、账单、合规、监控、异常输入、用户误用和持续维护。

成本：Token、延迟与模型选择

大模型成本通常由几部分组成：输入 Token、输出 Token、模型单价、推理延迟、上下文长度、并发规模、缓存命中率。

输入越长，prefill 越慢；输出越长，decode 越久；模型越强，单价通常越高；并发越多，服务端显存和吞吐压力越大。长上下文模型看起来很诱人，但长上下文不是替代检索的万能方案。能用 5 段资料回答的问题，不应该塞 500 段资料。

模型选择也不应该只看排行榜。更实用的做法是按任务分层：

简单分类、标签、摘要：小模型
知识库问答、客服辅助：中等模型 + RAG
复杂推理、代码、长文档分析：强模型
高风险动作：强模型 + 工具校验 + 人工确认

很多系统还会使用路由策略。先用小模型判断任务类型和复杂度，再决定调用哪一档模型。这样可以在体验和成本之间取得更好的平衡。

企业落地最值得关注的边界

大模型适合处理语言密集、知识密集、流程半结构化的工作。写作、总结、搜索、问答、客服、研发辅助、数据解释、知识管理、会议纪要、销售资料、培训支持，都是高频场景。

但大模型不适合无约束地替代确定性系统。金额计算、权限判断、状态变更、合规审批、核心交易、库存扣减、账务处理，仍然应该由传统系统和明确规则控制。模型可以解释、辅助、生成建议，但最终动作要进入可验证的业务逻辑。

最稳的落地方式，是让大模型站在业务系统旁边，先做“读”和“写”的增强，再逐步进入“查”和“办”。先让它读文档、读工单、读代码、读会议记录；再让它写摘要、写回复、写方案、写 SQL；然后接入检索、数据库和工具；最后才考虑受控执行。

一句话建立技术全景

大模型的底层是 Token 概率建模和大规模矩阵运算；Transformer 用注意力机制建立上下文关联；训练让模型获得通用语言和推理能力；推理通过逐 Token 解码生成回答；KV Cache 降低重复计算；RAG 把模型连接到外部知识；Agent 把模型连接到工具和行动。

理解这条链路后，大模型就不再只是一个聊天框。它是新的软件能力层：上接自然语言交互，下接知识、工具、数据和业务系统。真正的价值不在“像人一样说话”，而在于把复杂信息转化为可用答案，把分散知识转化为可复用能力，把自然语言转化为可执行流程。

大模型到底在做什么

大语言模型的基础任务是预测下一个 Token。

给定一段输入：

人工智能正在改变

这个过程不断重复，就形成了完整回答：

人工智能正在改变软件开发、知识管理和企业协作方式。

看起来像是在“写句子”，底层其实是连续的条件概率建模：

P(token_t | token_1, token_2, ..., token_t-1)

Token：模型眼里的语言单位

大模型不能直接处理“文字”。所有文本进入模型前，都会先经过 tokenizer，被切成 Token，再映射成整数 ID。

例如：

大模型知识库

可能被切成：

大 / 模型 / 知识 / 库

也可能被切成：

大模型 / 知识库

编码与解码：文本如何变成向量

大模型处理文本的第一步是编码。

文本
  ↓
Tokenizer
  ↓
Token ID
  ↓
Embedding
  ↓
Transformer

Tokenizer 把文本转成 Token ID 后，模型会通过 embedding 表把每个 ID 映射成一个高维向量。可以把 embedding 理解为模型内部的语义坐标。

例如某个 Token 可能被映射成：

[0.12, -0.44, 0.08, 1.37, ...]

Transformer：大模型的主干结构

现代大模型的核心架构主要来自 Transformer。它最关键的机制是 Attention，也就是注意力机制。

Attention 要解决的问题是：当前 Token 在理解上下文时，应该关注哪些 Token。

例如：

小王把合同交给小李，因为他负责审批。

模型需要判断“他”更可能指向“小李”。传统序列模型很难稳定处理这种长距离依赖，Attention 则允许每个 Token 直接和上下文中的其他 Token 建立关联。

Attention 的经典公式是：

Attention(Q, K, V) = softmax(QK^T / sqrt(d))V

这里有三个核心向量：

Q = Query
K = Key
V = Value

输入矩阵 X 会分别乘以三个权重矩阵：

Q = XWq
K = XWk
V = XWv

这些都是矩阵乘法。大模型看似在理解语言，本质上是在高维空间里不断做线性变换、归一化、非线性激活和矩阵乘法。

矩阵运算：大模型为什么需要 GPU

大模型推理的底层形态是矩阵运算。

假设一个模型的隐藏维度是 4096，输入序列长度是 2048，那么输入可以看作一个矩阵：

X: [2048, 4096]

它会和各种权重矩阵相乘，得到 Q、K、V、前馈网络中间状态以及最终输出。模型层数越多、隐藏维度越大、上下文越长，需要的计算和显存就越多。

训练：模型能力从哪里来

大模型能力主要来自三个阶段：预训练、指令微调、对齐。

推理：回答是怎样生成出来的

推理可以分成两个阶段：prefill 和 decode。

KV Cache：推理加速的关键缓存

自回归大模型每次生成新 Token 时，都需要利用前面所有 Token 的上下文。如果每一步都重新计算历史 Token 的 Key 和 Value，计算量会非常浪费。

KV Cache 的做法是把历史 Token 已经算好的 K 和 V 保存起来。下一步生成时，只需要计算新 Token 的 Q/K/V，然后复用历史 K/V。

简化流程如下：

第 1 个 Token：计算 K1, V1，写入缓存
第 2 个 Token：计算 K2, V2，复用 K1, V1
第 3 个 Token：计算 K3, V3，复用 K1, V1, K2, V2

RAG：让模型连接外部知识

RAG 是 Retrieval-Augmented Generation，检索增强生成。它是大模型落地知识库、客服、企业文档问答时最常见的架构。

基本链路是：

用户问题
  ↓
问题改写 / 意图识别
  ↓
向量检索 + 关键词检索
  ↓
Rerank 重排序
  ↓
拼装上下文
  ↓
大模型生成回答
  ↓
引用来源与校验

Agent：从回答问题到执行任务

Agent 是大模型系统进一步工程化后的形态。它让模型不仅生成文本，还能规划步骤、调用工具、观察结果、继续行动。

一个简单 Agent 的循环通常是：

理解目标
  ↓
制定下一步
  ↓
调用工具
  ↓
读取结果
  ↓
更新计划
  ↓
继续执行或结束

多模态：输入输出不再只有文字

幻觉：大模型为什么会编造

幻觉是大模型最核心的风险之一。它指模型生成了看似合理但实际错误的信息。

降低幻觉需要系统工程，而不是一句 prompt 就能解决。常见手段包括：

使用 RAG 提供外部资料
要求答案引用来源
检索分数低时拒答
对数字、日期、金额、法规条款做二次校验
对关键动作增加人工确认
对模型输出做结构化验证
用评测集持续测试回答质量

业务场景越严肃，越不能把“回答流畅”当成“回答正确”。法律、医疗、财务、制度、合同、客户承诺、生产运维等场景，都需要更强的验证链路。

大模型应用的工程架构

一个典型的大模型应用通常不是一个 API 调用，而是一套完整链路：

前端交互
  ↓
鉴权与限流
  ↓
Prompt 编排
  ↓
检索 / 工具调用
  ↓
模型推理
  ↓
结果校验
  ↓
日志与评测

成本：Token、延迟与模型选择

大模型成本通常由几部分组成：输入 Token、输出 Token、模型单价、推理延迟、上下文长度、并发规模、缓存命中率。

模型选择也不应该只看排行榜。更实用的做法是按任务分层：

简单分类、标签、摘要：小模型
知识库问答、客服辅助：中等模型 + RAG
复杂推理、代码、长文档分析：强模型
高风险动作：强模型 + 工具校验 + 人工确认

很多系统还会使用路由策略。先用小模型判断任务类型和复杂度，再决定调用哪一档模型。这样可以在体验和成本之间取得更好的平衡。

15 分钟了解大模型：从 Token、矩阵运算到 RAG 与 Agent

大模型到底在做什么

Token：模型眼里的语言单位

编码与解码：文本如何变成向量

Transformer：大模型的主干结构

矩阵运算：大模型为什么需要 GPU

训练：模型能力从哪里来

推理：回答是怎样生成出来的

KV Cache：推理加速的关键缓存

RAG：让模型连接外部知识

Agent：从回答问题到执行任务

多模态：输入输出不再只有文字

幻觉：大模型为什么会编造

大模型应用的工程架构

成本：Token、延迟与模型选择

企业落地最值得关注的边界

一句话建立技术全景

讨论

15 分钟了解大模型：从 Token、矩阵运算到 RAG 与 Agent

大模型到底在做什么

Token：模型眼里的语言单位

编码与解码：文本如何变成向量

Transformer：大模型的主干结构

矩阵运算：大模型为什么需要 GPU

训练：模型能力从哪里来

推理：回答是怎样生成出来的

KV Cache：推理加速的关键缓存

RAG：让模型连接外部知识

Agent：从回答问题到执行任务

多模态：输入输出不再只有文字

幻觉：大模型为什么会编造

大模型应用的工程架构

成本：Token、延迟与模型选择

企业落地最值得关注的边界

一句话建立技术全景

讨论