T
TUARAN涂阿燃 · 网络日志

Menu

...

检查登录状态…

© 2025—2026 网络日志·关于本站·关于站长·聊合作·留言板·RSS·支持本站·流量统计·提建议·CI Status

知识库·事项调研·技术·2026-06-01·25 min read·阅读量 -·协助:GPT5.5
RSS

15 分钟了解大模型:从 Token、矩阵运算到 RAG 与 Agent

涂阿燃 · tuaran前端 / AI Agent / 政企方案

在 2aran.com 写技术调研、AI 工程实践与独立开发笔记。 关于站长 →

TL;DR大模型的底层是 Token 概率建模和大规模矩阵运算;Transformer 负责理解上下文,KV Cache 负责降低推理重复计算,RAG 负责接入外部知识,Agent 负责把模型从回答问题推进到执行任务。
#大模型#Transformer#RAG#Agent#AI 工程#知识库
文章目录
  • 大模型到底在做什么
  • Token:模型眼里的语言单位
  • 编码与解码:文本如何变成向量
  • Transformer:大模型的主干结构
  • 矩阵运算:大模型为什么需要 GPU
  • 训练:模型能力从哪里来
  • 推理:回答是怎样生成出来的
  • KV Cache:推理加速的关键缓存
  • RAG:让模型连接外部知识
  • Agent:从回答问题到执行任务
  • 多模态:输入输出不再只有文字
  • 幻觉:大模型为什么会编造
  • 大模型应用的工程架构
  • 成本:Token、延迟与模型选择
  • 企业落地最值得关注的边界
  • 一句话建立技术全景

大模型最容易被误解成一个“会聊天的软件”。这个说法太轻了,也容易遮住真正的技术核心。更准确的理解是:大模型是一套把自然语言、代码、图像、音频等信息映射到高维向量空间,再通过大规模矩阵计算完成理解、推理和生成的通用模型系统。

用户看到的是一句自然语言回答,机器内部发生的是 Token 编码、向量查表、位置编码、注意力计算、前馈网络、概率分布、采样解码、缓存复用、上下文拼装等一连串计算。大模型的能力并不来自某个神秘模块,而来自规模化训练、Transformer 架构、海量数据、算力堆叠、对齐技术以及工程系统的共同作用。

在业务系统里,大模型也不是孤立存在的。它通常和知识库、搜索、数据库、代码执行器、浏览器、企业系统 API 一起工作。模型负责理解和生成,外部系统负责提供事实、权限、状态和动作能力。大模型真正进入生产环境时,核心问题往往不再是“模型会不会回答”,而是“回答是否可信、成本是否可控、延迟是否可接受、权限是否安全、是否能稳定接入业务流程”。

大模型到底在做什么

大语言模型的基础任务是预测下一个 Token。

给定一段输入:

人工智能正在改变

模型要计算下一个 Token 最可能是什么。可能是“软件”、可能是“教育”、可能是“生产方式”,也可能是其他词。模型会为整个词表里的每个候选 Token 计算一个概率,再根据解码策略选择其中一个输出。

这个过程不断重复,就形成了完整回答:

人工智能正在改变软件开发、知识管理和企业协作方式。

看起来像是在“写句子”,底层其实是连续的条件概率建模:

P(token_t | token_1, token_2, ..., token_t-1)

也就是说,模型每一步都在根据前文预测下一个最合适的 Token。训练规模足够大、数据足够丰富、模型容量足够高时,这种简单目标会涌现出翻译、摘要、代码生成、推理、写作、问答等复杂能力。

这也是大模型和传统软件最大的差异。传统软件靠工程师显式写规则,大模型靠训练过程从数据中学习统计规律和语义结构。传统软件面对输入时执行固定逻辑,大模型面对输入时计算概率分布。传统软件的错误通常来自代码分支,大模型的错误常常来自上下文不足、检索错误、概率采样、训练数据偏差或对齐不足。

Token:模型眼里的语言单位

大模型不能直接处理“文字”。所有文本进入模型前,都会先经过 tokenizer,被切成 Token,再映射成整数 ID。

例如:

大模型知识库

可能被切成:

大 / 模型 / 知识 / 库

也可能被切成:

大模型 / 知识库

具体切法取决于模型使用的 tokenizer 和词表。英文里,一个单词可能是一个 Token,也可能被拆成多个子词;中文里,一个词、一个字、一个常见短语都可能成为 Token;代码、标点、空格、换行也都会被编码。

Token 很重要,因为大模型的成本、上下文长度和生成速度都围绕 Token 计算。API 计费通常按输入 Token 和输出 Token 收费;上下文窗口说的 32K、128K、1M,本质上都是 Token 数;模型生成回答时,也是一个 Token 一个 Token 地输出。

同一句话,在不同语言和不同 tokenizer 下消耗的 Token 数可能不同。这也是为什么长文档问答、代码分析、知识库系统都必须关注 Token 预算。把大量无关资料塞进 prompt,不仅会增加费用,还会拉长推理时间,甚至稀释真正重要的信息。

编码与解码:文本如何变成向量

大模型处理文本的第一步是编码。

文本
  ↓
Tokenizer
  ↓
Token ID
  ↓
Embedding
  ↓
Transformer

笔记本上的数据分析

Tokenizer 把文本转成 Token ID 后,模型会通过 embedding 表把每个 ID 映射成一个高维向量。可以把 embedding 理解为模型内部的语义坐标。

例如某个 Token 可能被映射成:

[0.12, -0.44, 0.08, 1.37, ...]

真实模型里的向量维度可能是几千甚至上万维。这些数字不是人工设定的,而是在训练中学出来的。语义相近、语法功能相近、经常出现在相似上下文里的 Token,在向量空间里往往会形成某种接近关系。

但只有 Token embedding 还不够。句子里的词有顺序,“我打你”和“你打我”的 Token 相同,意思完全不同。模型还需要位置编码,让每个 Token 知道自己在序列中的位置。位置编码可以是绝对位置,也可以是 RoPE 这类旋转位置编码。长上下文模型能处理更长文本,背后往往也涉及位置编码、注意力机制、训练策略和推理优化的配套改造。

输出阶段则是解码。Transformer 最后一层会输出一个 logits 向量,表示词表中每个 Token 的未归一化分数。经过 softmax 后得到概率分布,再用 greedy、top-k、top-p、temperature 等策略选出下一个 Token。

temperature 越低,输出越稳定;temperature 越高,输出越发散。做知识库问答、制度查询、代码修复时,通常希望 temperature 低一点;做创意写作、命名、头脑风暴时,可以适当提高。

Transformer:大模型的主干结构

现代大模型的核心架构主要来自 Transformer。它最关键的机制是 Attention,也就是注意力机制。

Attention 要解决的问题是:当前 Token 在理解上下文时,应该关注哪些 Token。

例如:

小王把合同交给小李,因为他负责审批。

模型需要判断“他”更可能指向“小李”。传统序列模型很难稳定处理这种长距离依赖,Attention 则允许每个 Token 直接和上下文中的其他 Token 建立关联。

Attention 的经典公式是:

Attention(Q, K, V) = softmax(QK^T / sqrt(d))V

这里有三个核心向量:

Q = Query
K = Key
V = Value

可以把它类比成一次可学习的信息检索。Query 表示当前 Token 想查什么,Key 表示上下文中每个 Token 提供什么索引特征,Value 表示每个 Token 真正携带的信息内容。模型先用 Q 和 K 计算相关性,再用相关性权重去加权聚合 V。

输入矩阵 X 会分别乘以三个权重矩阵:

Q = XWq
K = XWk
V = XWv

这些都是矩阵乘法。大模型看似在理解语言,本质上是在高维空间里不断做线性变换、归一化、非线性激活和矩阵乘法。

多头注意力则是让模型从多个角度看上下文。有的头可能更关注语法关系,有的头可能更关注实体指代,有的头可能更关注代码括号匹配,有的头可能更关注段落主题。多个注意力头的结果会被拼接,再进入后续网络层。

Transformer 层通常还包含 Feed Forward Network。注意力负责在 Token 之间交换信息,前馈网络负责对每个位置上的表示进行更复杂的变换。很多模型的大部分计算量,其实都消耗在这些巨大的矩阵乘法上。

矩阵运算:大模型为什么需要 GPU

大模型推理的底层形态是矩阵运算。

假设一个模型的隐藏维度是 4096,输入序列长度是 2048,那么输入可以看作一个矩阵:

X: [2048, 4096]

它会和各种权重矩阵相乘,得到 Q、K、V、前馈网络中间状态以及最终输出。模型层数越多、隐藏维度越大、上下文越长,需要的计算和显存就越多。

GPU 适合大模型,不是因为 GPU “更聪明”,而是因为 GPU 擅长并行矩阵计算。成千上万个小计算核心可以同时处理大量乘加操作。训练阶段需要处理海量样本和反向传播,推理阶段也需要在每个 Token 生成时执行大量矩阵乘法。

模型越大,能力通常越强,但成本也越高。参数量增加会带来更高的显存占用;上下文变长会增加 attention 和 KV Cache 的开销;输出越长,解码循环越久。工程系统必须在模型能力、响应速度、成本和用户体验之间做权衡。

这也是小模型越来越重要的原因。并不是所有任务都需要最强模型。分类、摘要、简单问答、格式转换、文本改写、客服初筛、意图识别,很多场景可以用更小、更快、更便宜的模型完成。强模型更适合复杂推理、长链路任务、高价值决策和需要高可靠性的场景。

训练:模型能力从哪里来

大模型能力主要来自三个阶段:预训练、指令微调、对齐。

预训练让模型学习语言、事实、代码和世界知识。训练数据通常包括网页、书籍、论文、代码、问答、论坛、文档等。训练目标很朴素,就是根据前文预测下一个 Token。这个阶段成本最高,也决定了模型的基础能力上限。

指令微调让模型学会“听指令”。预训练模型更像一个续写器,给它一句话,它会自然延续下去,但不一定按用户意图完成任务。指令微调用大量“指令-回答”样本继续训练,让模型学会总结、翻译、分类、抽取、写代码、回答问题、遵守格式。

对齐让模型更符合人类偏好和安全要求。常见方式包括 RLHF 和 RLAIF。它们会利用人类或 AI 反馈,让模型倾向于生成更有帮助、更安全、更清晰、更少攻击性的回答。对齐并不等于让模型拥有真理判断能力,它只是让输出更接近人类期望。

训练也解释了大模型的边界。模型不是数据库。它在预训练中压缩了大量知识,但这些知识可能过时、缺失、混杂甚至错误。企业内部文档、最新业务规则、用户私有数据通常不在训练集中。要让模型回答最新、私有、可追溯的问题,不能只靠模型记忆,需要接入外部知识。

推理:回答是怎样生成出来的

推理可以分成两个阶段:prefill 和 decode。

prefill 阶段处理完整输入。用户问题、系统提示词、历史对话、检索资料都会被一起送入模型,模型计算每个位置的中间状态,并为后续生成准备 K/V 缓存。

decode 阶段逐 Token 生成回答。每生成一个新 Token,模型都会把它追加到上下文中,再预测下一个 Token。这个过程会循环直到遇到结束符、达到最大长度,或被外部系统中断。

长 prompt 的主要成本在 prefill。输出很长的主要成本在 decode。知识库系统如果每次都塞入大量文档片段,prefill 会变慢;写长报告、长代码、长分析时,decode 会持续占用推理资源。

工程优化通常围绕这些成本展开。比如减少无关上下文、缓存常见问题、缩短输出、拆分任务、用小模型做前置处理、用重排序减少输入片段、为不同任务选择不同模型。

KV Cache:推理加速的关键缓存

自回归大模型每次生成新 Token 时,都需要利用前面所有 Token 的上下文。如果每一步都重新计算历史 Token 的 Key 和 Value,计算量会非常浪费。

KV Cache 的做法是把历史 Token 已经算好的 K 和 V 保存起来。下一步生成时,只需要计算新 Token 的 Q/K/V,然后复用历史 K/V。

电路板与前沿技术研究

简化流程如下:

第 1 个 Token:计算 K1, V1,写入缓存
第 2 个 Token:计算 K2, V2,复用 K1, V1
第 3 个 Token:计算 K3, V3,复用 K1, V1, K2, V2

KV Cache 能显著提升解码速度,但会消耗显存。上下文越长,层数越多,注意力头越多,缓存越大。多用户并发时,每个请求都可能占用一份 KV Cache,显存压力会快速上升。

这对产品设计很直接。超长上下文不是免费能力。把 100 页资料塞进 prompt,可能能回答,但成本、延迟和显存都会上升。成熟系统更倾向于先检索、压缩、重排,只把最相关的信息送给模型。

RAG:让模型连接外部知识

RAG 是 Retrieval-Augmented Generation,检索增强生成。它是大模型落地知识库、客服、企业文档问答时最常见的架构。

基本链路是:

用户问题
  ↓
问题改写 / 意图识别
  ↓
向量检索 + 关键词检索
  ↓
Rerank 重排序
  ↓
拼装上下文
  ↓
大模型生成回答
  ↓
引用来源与校验

RAG 的价值是把模型从“凭记忆回答”改成“先查资料再回答”。企业制度、产品说明、技术文档、项目资料、客服话术都可以先切分成 chunk,生成 embedding,写入向量库。用户提问时,系统把问题也转成 embedding,再检索语义相近的文档片段。

向量检索擅长语义匹配。用户问“怎么报销差旅费”,系统可以找到“差旅费用报销流程”,即使字面不完全一致。关键词检索擅长精确匹配,适合错误码、合同编号、API 名、产品型号、人名等。实际系统通常会混合使用,再通过 rerank 模型重新排序。

RAG 不是把所有文档塞给模型。真正影响效果的是切分、召回、重排、权限过滤、上下文组织和引用校验。文档切得太碎,语义不完整;切得太大,召回不精准、Token 成本高。召回不足,模型没资料;召回太多,模型被噪声干扰。

可靠的 RAG 系统还要允许模型拒答。如果检索结果置信度低,或者资料中没有依据,答案应该说明无法确认,而不是靠预训练知识补全。知识库问答的第一目标不是流畅,而是可信。

Agent:从回答问题到执行任务

Agent 是大模型系统进一步工程化后的形态。它让模型不仅生成文本,还能规划步骤、调用工具、观察结果、继续行动。

一个简单 Agent 的循环通常是:

理解目标
  ↓
制定下一步
  ↓
调用工具
  ↓
读取结果
  ↓
更新计划
  ↓
继续执行或结束

工具可以是搜索引擎、浏览器、数据库、代码解释器、日历、邮件、CRM、工单系统、部署平台,也可以是企业内部 API。模型负责决定什么时候调用什么工具,工具负责返回真实世界的状态。

Agent 的价值在复杂任务中更明显。比如“整理最近一个月客户反馈并生成产品改进建议”,它可能需要搜索工单、聚类问题、读取产品文档、统计频次、生成报告。单次问答无法完成这类任务,Agent 可以把它拆成多个步骤。

但 Agent 也带来风险。模型可能选错工具、误解结果、循环不停止、执行高风险动作。生产系统通常需要权限控制、工具白名单、人工确认、步骤日志、执行边界和失败回滚。尤其涉及发邮件、付款、删数据、改配置、部署代码时,不能让模型无约束执行。

多模态:输入输出不再只有文字

大模型正在从纯文本走向多模态。多模态模型可以处理图片、音频、视频、文档版面和屏幕截图。它们背后的思路仍然是把不同模态编码成模型可处理的向量表示,再在统一空间里进行推理和生成。

图片理解可以用于票据识别、图表分析、界面检查、工业质检、医学影像辅助。音频能力可以用于语音助手、会议纪要、客服质检。视频理解可以用于监控分析、课程总结、内容审核。文档理解可以处理 PDF、表格、扫描件和混合版面。

多模态让大模型更接近真实工作场景。企业里的知识并不只存在于纯文本里,更多时候分散在图片、表格、PPT、录音、视频和系统截图中。模型如果只能读纯文本,很多业务流程仍然需要人工转换。多模态能力提升后,AI 可以直接处理更原始的信息形态。

幻觉:大模型为什么会编造

幻觉是大模型最核心的风险之一。它指模型生成了看似合理但实际错误的信息。

幻觉不是偶然小毛病,而是生成式模型机制的一部分。模型的目标是生成高概率文本,不是天然验证事实真伪。当上下文不足、问题模糊、检索错误、训练数据缺失时,模型仍然可能生成一个流畅答案。

降低幻觉需要系统工程,而不是一句 prompt 就能解决。常见手段包括:

  • 使用 RAG 提供外部资料
  • 要求答案引用来源
  • 检索分数低时拒答
  • 对数字、日期、金额、法规条款做二次校验
  • 对关键动作增加人工确认
  • 对模型输出做结构化验证
  • 用评测集持续测试回答质量

业务场景越严肃,越不能把“回答流畅”当成“回答正确”。法律、医疗、财务、制度、合同、客户承诺、生产运维等场景,都需要更强的验证链路。

大模型应用的工程架构

一个典型的大模型应用通常不是一个 API 调用,而是一套完整链路:

前端交互
  ↓
鉴权与限流
  ↓
Prompt 编排
  ↓
检索 / 工具调用
  ↓
模型推理
  ↓
结果校验
  ↓
日志与评测

团队围绕技术设备协作

Prompt 编排负责把系统规则、用户问题、历史上下文、工具结果、检索资料组合成模型输入。鉴权负责判断用户能访问哪些资料和工具。限流负责控制成本和防止滥用。日志负责追踪问题,评测负责持续改进质量。

在生产环境里,模型调用只是其中一层。真正决定体验的是整条链路的稳定性:资料是否新,检索是否准,权限是否正确,失败是否可恢复,成本是否有上限,回答是否可追溯。

这也是为什么很多 AI 项目从 demo 到生产会遇到落差。Demo 阶段只要回答看起来不错;生产阶段要面对权限、并发、延迟、账单、合规、监控、异常输入、用户误用和持续维护。

成本:Token、延迟与模型选择

大模型成本通常由几部分组成:输入 Token、输出 Token、模型单价、推理延迟、上下文长度、并发规模、缓存命中率。

输入越长,prefill 越慢;输出越长,decode 越久;模型越强,单价通常越高;并发越多,服务端显存和吞吐压力越大。长上下文模型看起来很诱人,但长上下文不是替代检索的万能方案。能用 5 段资料回答的问题,不应该塞 500 段资料。

模型选择也不应该只看排行榜。更实用的做法是按任务分层:

  • 简单分类、标签、摘要:小模型
  • 知识库问答、客服辅助:中等模型 + RAG
  • 复杂推理、代码、长文档分析:强模型
  • 高风险动作:强模型 + 工具校验 + 人工确认

很多系统还会使用路由策略。先用小模型判断任务类型和复杂度,再决定调用哪一档模型。这样可以在体验和成本之间取得更好的平衡。

企业落地最值得关注的边界

大模型适合处理语言密集、知识密集、流程半结构化的工作。写作、总结、搜索、问答、客服、研发辅助、数据解释、知识管理、会议纪要、销售资料、培训支持,都是高频场景。

但大模型不适合无约束地替代确定性系统。金额计算、权限判断、状态变更、合规审批、核心交易、库存扣减、账务处理,仍然应该由传统系统和明确规则控制。模型可以解释、辅助、生成建议,但最终动作要进入可验证的业务逻辑。

最稳的落地方式,是让大模型站在业务系统旁边,先做“读”和“写”的增强,再逐步进入“查”和“办”。先让它读文档、读工单、读代码、读会议记录;再让它写摘要、写回复、写方案、写 SQL;然后接入检索、数据库和工具;最后才考虑受控执行。

一句话建立技术全景

大模型的底层是 Token 概率建模和大规模矩阵运算;Transformer 用注意力机制建立上下文关联;训练让模型获得通用语言和推理能力;推理通过逐 Token 解码生成回答;KV Cache 降低重复计算;RAG 把模型连接到外部知识;Agent 把模型连接到工具和行动。

理解这条链路后,大模型就不再只是一个聊天框。它是新的软件能力层:上接自然语言交互,下接知识、工具、数据和业务系统。真正的价值不在“像人一样说话”,而在于把复杂信息转化为可用答案,把分散知识转化为可复用能力,把自然语言转化为可执行流程。

Support

支持这篇调研

一下点赞、一句评论,都是对继续写下去的支持。

评论

Related

同类调研

  • 2026-07-02 14:50微信原生智能体「小微」调研:灰度进展与 WeLM 技术架构
  • 2026-07-02 09:27策展人平台调研:从收藏夹到可商业化的内容入口
  • 2026-07-02Cloudflare 免费与付费服务边界深度调研

Discussion

讨论

还没有讨论

以游客身份发表 —— 登录后历史评论会自动绑定到你的账号
1000 字
来留下第一条讨论。

Stay in touch

写完一篇 · 走到下一段

Newsletter

每周收一封,少刷一点信息流

我会把新文章、调研、资源更新和工具发布整理成一封邮件。频率克制,不做日更轰炸。

先用本站 D1 记录订阅;配置 Buttondown token 后会同步到 Buttondown。

📡
RSS 订阅 →

2aran.com/rss.xml · 用你的阅读器订阅,不错过任何一篇

💬
加入社群 →

微信小红书读者群,不焦虑,慢节奏

📚
知识库 →

精选文章 + 公司调研 + 事项调研 + 人物调研

👋
关于站长 →

前端 · AI Agent · 政企方案

合作 / 咨询 / 调研定制见 合作说明 · 微信 atar24