大模型最容易被误解成一个“会聊天的软件”。这个说法太轻了,也容易遮住真正的技术核心。更准确的理解是:大模型是一套把自然语言、代码、图像、音频等信息映射到高维向量空间,再通过大规模矩阵计算完成理解、推理和生成的通用模型系统。
用户看到的是一句自然语言回答,机器内部发生的是 Token 编码、向量查表、位置编码、注意力计算、前馈网络、概率分布、采样解码、缓存复用、上下文拼装等一连串计算。大模型的能力并不来自某个神秘模块,而来自规模化训练、Transformer 架构、海量数据、算力堆叠、对齐技术以及工程系统的共同作用。
在业务系统里,大模型也不是孤立存在的。它通常和知识库、搜索、数据库、代码执行器、浏览器、企业系统 API 一起工作。模型负责理解和生成,外部系统负责提供事实、权限、状态和动作能力。大模型真正进入生产环境时,核心问题往往不再是“模型会不会回答”,而是“回答是否可信、成本是否可控、延迟是否可接受、权限是否安全、是否能稳定接入业务流程”。
大模型到底在做什么
大语言模型的基础任务是预测下一个 Token。
给定一段输入:
人工智能正在改变
模型要计算下一个 Token 最可能是什么。可能是“软件”、可能是“教育”、可能是“生产方式”,也可能是其他词。模型会为整个词表里的每个候选 Token 计算一个概率,再根据解码策略选择其中一个输出。
这个过程不断重复,就形成了完整回答:
人工智能正在改变软件开发、知识管理和企业协作方式。
看起来像是在“写句子”,底层其实是连续的条件概率建模:
P(token_t | token_1, token_2, ..., token_t-1)
也就是说,模型每一步都在根据前文预测下一个最合适的 Token。训练规模足够大、数据足够丰富、模型容量足够高时,这种简单目标会涌现出翻译、摘要、代码生成、推理、写作、问答等复杂能力。
这也是大模型和传统软件最大的差异。传统软件靠工程师显式写规则,大模型靠训练过程从数据中学习统计规律和语义结构。传统软件面对输入时执行固定逻辑,大模型面对输入时计算概率分布。传统软件的错误通常来自代码分支,大模型的错误常常来自上下文不足、检索错误、概率采样、训练数据偏差或对齐不足。
Token:模型眼里的语言单位
大模型不能直接处理“文字”。所有文本进入模型前,都会先经过 tokenizer,被切成 Token,再映射成整数 ID。
例如:
大模型知识库
可能被切成:
大 / 模型 / 知识 / 库
也可能被切成:
大模型 / 知识库
具体切法取决于模型使用的 tokenizer 和词表。英文里,一个单词可能是一个 Token,也可能被拆成多个子词;中文里,一个词、一个字、一个常见短语都可能成为 Token;代码、标点、空格、换行也都会被编码。
Token 很重要,因为大模型的成本、上下文长度和生成速度都围绕 Token 计算。API 计费通常按输入 Token 和输出 Token 收费;上下文窗口说的 32K、128K、1M,本质上都是 Token 数;模型生成回答时,也是一个 Token 一个 Token 地输出。
同一句话,在不同语言和不同 tokenizer 下消耗的 Token 数可能不同。这也是为什么长文档问答、代码分析、知识库系统都必须关注 Token 预算。把大量无关资料塞进 prompt,不仅会增加费用,还会拉长推理时间,甚至稀释真正重要的信息。
编码与解码:文本如何变成向量
大模型处理文本的第一步是编码。
文本
↓
Tokenizer
↓
Token ID
↓
Embedding
↓
Transformer
Tokenizer 把文本转成 Token ID 后,模型会通过 embedding 表把每个 ID 映射成一个高维向量。可以把 embedding 理解为模型内部的语义坐标。
例如某个 Token 可能被映射成:
[0.12, -0.44, 0.08, 1.37, ...]
真实模型里的向量维度可能是几千甚至上万维。这些数字不是人工设定的,而是在训练中学出来的。语义相近、语法功能相近、经常出现在相似上下文里的 Token,在向量空间里往往会形成某种接近关系。
但只有 Token embedding 还不够。句子里的词有顺序,“我打你”和“你打我”的 Token 相同,意思完全不同。模型还需要位置编码,让每个 Token 知道自己在序列中的位置。位置编码可以是绝对位置,也可以是 RoPE 这类旋转位置编码。长上下文模型能处理更长文本,背后往往也涉及位置编码、注意力机制、训练策略和推理优化的配套改造。
输出阶段则是解码。Transformer 最后一层会输出一个 logits 向量,表示词表中每个 Token 的未归一化分数。经过 softmax 后得到概率分布,再用 greedy、top-k、top-p、temperature 等策略选出下一个 Token。
temperature 越低,输出越稳定;temperature 越高,输出越发散。做知识库问答、制度查询、代码修复时,通常希望 temperature 低一点;做创意写作、命名、头脑风暴时,可以适当提高。
Transformer:大模型的主干结构
现代大模型的核心架构主要来自 Transformer。它最关键的机制是 Attention,也就是注意力机制。
Attention 要解决的问题是:当前 Token 在理解上下文时,应该关注哪些 Token。
例如:
小王把合同交给小李,因为他负责审批。
模型需要判断“他”更可能指向“小李”。传统序列模型很难稳定处理这种长距离依赖,Attention 则允许每个 Token 直接和上下文中的其他 Token 建立关联。
Attention 的经典公式是:
Attention(Q, K, V) = softmax(QK^T / sqrt(d))V
这里有三个核心向量:
Q = Query
K = Key
V = Value
可以把它类比成一次可学习的信息检索。Query 表示当前 Token 想查什么,Key 表示上下文中每个 Token 提供什么索引特征,Value 表示每个 Token 真正携带的信息内容。模型先用 Q 和 K 计算相关性,再用相关性权重去加权聚合 V。
输入矩阵 X 会分别乘以三个权重矩阵:
Q = XWq
K = XWk
V = XWv
这些都是矩阵乘法。大模型看似在理解语言,本质上是在高维空间里不断做线性变换、归一化、非线性激活和矩阵乘法。
多头注意力则是让模型从多个角度看上下文。有的头可能更关注语法关系,有的头可能更关注实体指代,有的头可能更关注代码括号匹配,有的头可能更关注段落主题。多个注意力头的结果会被拼接,再进入后续网络层。
Transformer 层通常还包含 Feed Forward Network。注意力负责在 Token 之间交换信息,前馈网络负责对每个位置上的表示进行更复杂的变换。很多模型的大部分计算量,其实都消耗在这些巨大的矩阵乘法上。
矩阵运算:大模型为什么需要 GPU
大模型推理的底层形态是矩阵运算。
假设一个模型的隐藏维度是 4096,输入序列长度是 2048,那么输入可以看作一个矩阵:
X: [2048, 4096]
它会和各种权重矩阵相乘,得到 Q、K、V、前馈网络中间状态以及最终输出。模型层数越多、隐藏维度越大、上下文越长,需要的计算和显存就越多。
GPU 适合大模型,不是因为 GPU “更聪明”,而是因为 GPU 擅长并行矩阵计算。成千上万个小计算核心可以同时处理大量乘加操作。训练阶段需要处理海量样本和反向传播,推理阶段也需要在每个 Token 生成时执行大量矩阵乘法。
模型越大,能力通常越强,但成本也越高。参数量增加会带来更高的显存占用;上下文变长会增加 attention 和 KV Cache 的开销;输出越长,解码循环越久。工程系统必须在模型能力、响应速度、成本和用户体验之间做权衡。
这也是小模型越来越重要的原因。并不是所有任务都需要最强模型。分类、摘要、简单问答、格式转换、文本改写、客服初筛、意图识别,很多场景可以用更小、更快、更便宜的模型完成。强模型更适合复杂推理、长链路任务、高价值决策和需要高可靠性的场景。
训练:模型能力从哪里来
大模型能力主要来自三个阶段:预训练、指令微调、对齐。
预训练让模型学习语言、事实、代码和世界知识。训练数据通常包括网页、书籍、论文、代码、问答、论坛、文档等。训练目标很朴素,就是根据前文预测下一个 Token。这个阶段成本最高,也决定了模型的基础能力上限。
指令微调让模型学会“听指令”。预训练模型更像一个续写器,给它一句话,它会自然延续下去,但不一定按用户意图完成任务。指令微调用大量“指令-回答”样本继续训练,让模型学会总结、翻译、分类、抽取、写代码、回答问题、遵守格式。
对齐让模型更符合人类偏好和安全要求。常见方式包括 RLHF 和 RLAIF。它们会利用人类或 AI 反馈,让模型倾向于生成更有帮助、更安全、更清晰、更少攻击性的回答。对齐并不等于让模型拥有真理判断能力,它只是让输出更接近人类期望。
训练也解释了大模型的边界。模型不是数据库。它在预训练中压缩了大量知识,但这些知识可能过时、缺失、混杂甚至错误。企业内部文档、最新业务规则、用户私有数据通常不在训练集中。要让模型回答最新、私有、可追溯的问题,不能只靠模型记忆,需要接入外部知识。
推理:回答是怎样生成出来的
推理可以分成两个阶段:prefill 和 decode。
prefill 阶段处理完整输入。用户问题、系统提示词、历史对话、检索资料都会被一起送入模型,模型计算每个位置的中间状态,并为后续生成准备 K/V 缓存。
decode 阶段逐 Token 生成回答。每生成一个新 Token,模型都会把它追加到上下文中,再预测下一个 Token。这个过程会循环直到遇到结束符、达到最大长度,或被外部系统中断。
长 prompt 的主要成本在 prefill。输出很长的主要成本在 decode。知识库系统如果每次都塞入大量文档片段,prefill 会变慢;写长报告、长代码、长分析时,decode 会持续占用推理资源。
工程优化通常围绕这些成本展开。比如减少无关上下文、缓存常见问题、缩短输出、拆分任务、用小模型做前置处理、用重排序减少输入片段、为不同任务选择不同模型。
KV Cache:推理加速的关键缓存
自回归大模型每次生成新 Token 时,都需要利用前面所有 Token 的上下文。如果每一步都重新计算历史 Token 的 Key 和 Value,计算量会非常浪费。
KV Cache 的做法是把历史 Token 已经算好的 K 和 V 保存起来。下一步生成时,只需要计算新 Token 的 Q/K/V,然后复用历史 K/V。
简化流程如下:
第 1 个 Token:计算 K1, V1,写入缓存
第 2 个 Token:计算 K2, V2,复用 K1, V1
第 3 个 Token:计算 K3, V3,复用 K1, V1, K2, V2
KV Cache 能显著提升解码速度,但会消耗显存。上下文越长,层数越多,注意力头越多,缓存越大。多用户并发时,每个请求都可能占用一份 KV Cache,显存压力会快速上升。
这对产品设计很直接。超长上下文不是免费能力。把 100 页资料塞进 prompt,可能能回答,但成本、延迟和显存都会上升。成熟系统更倾向于先检索、压缩、重排,只把最相关的信息送给模型。
RAG:让模型连接外部知识
RAG 是 Retrieval-Augmented Generation,检索增强生成。它是大模型落地知识库、客服、企业文档问答时最常见的架构。
基本链路是:
用户问题
↓
问题改写 / 意图识别
↓
向量检索 + 关键词检索
↓
Rerank 重排序
↓
拼装上下文
↓
大模型生成回答
↓
引用来源与校验
RAG 的价值是把模型从“凭记忆回答”改成“先查资料再回答”。企业制度、产品说明、技术文档、项目资料、客服话术都可以先切分成 chunk,生成 embedding,写入向量库。用户提问时,系统把问题也转成 embedding,再检索语义相近的文档片段。
向量检索擅长语义匹配。用户问“怎么报销差旅费”,系统可以找到“差旅费用报销流程”,即使字面不完全一致。关键词检索擅长精确匹配,适合错误码、合同编号、API 名、产品型号、人名等。实际系统通常会混合使用,再通过 rerank 模型重新排序。
RAG 不是把所有文档塞给模型。真正影响效果的是切分、召回、重排、权限过滤、上下文组织和引用校验。文档切得太碎,语义不完整;切得太大,召回不精准、Token 成本高。召回不足,模型没资料;召回太多,模型被噪声干扰。
可靠的 RAG 系统还要允许模型拒答。如果检索结果置信度低,或者资料中没有依据,答案应该说明无法确认,而不是靠预训练知识补全。知识库问答的第一目标不是流畅,而是可信。
Agent:从回答问题到执行任务
Agent 是大模型系统进一步工程化后的形态。它让模型不仅生成文本,还能规划步骤、调用工具、观察结果、继续行动。
一个简单 Agent 的循环通常是:
理解目标
↓
制定下一步
↓
调用工具
↓
读取结果
↓
更新计划
↓
继续执行或结束
工具可以是搜索引擎、浏览器、数据库、代码解释器、日历、邮件、CRM、工单系统、部署平台,也可以是企业内部 API。模型负责决定什么时候调用什么工具,工具负责返回真实世界的状态。
Agent 的价值在复杂任务中更明显。比如“整理最近一个月客户反馈并生成产品改进建议”,它可能需要搜索工单、聚类问题、读取产品文档、统计频次、生成报告。单次问答无法完成这类任务,Agent 可以把它拆成多个步骤。
但 Agent 也带来风险。模型可能选错工具、误解结果、循环不停止、执行高风险动作。生产系统通常需要权限控制、工具白名单、人工确认、步骤日志、执行边界和失败回滚。尤其涉及发邮件、付款、删数据、改配置、部署代码时,不能让模型无约束执行。
多模态:输入输出不再只有文字
大模型正在从纯文本走向多模态。多模态模型可以处理图片、音频、视频、文档版面和屏幕截图。它们背后的思路仍然是把不同模态编码成模型可处理的向量表示,再在统一空间里进行推理和生成。
图片理解可以用于票据识别、图表分析、界面检查、工业质检、医学影像辅助。音频能力可以用于语音助手、会议纪要、客服质检。视频理解可以用于监控分析、课程总结、内容审核。文档理解可以处理 PDF、表格、扫描件和混合版面。
多模态让大模型更接近真实工作场景。企业里的知识并不只存在于纯文本里,更多时候分散在图片、表格、PPT、录音、视频和系统截图中。模型如果只能读纯文本,很多业务流程仍然需要人工转换。多模态能力提升后,AI 可以直接处理更原始的信息形态。
幻觉:大模型为什么会编造
幻觉是大模型最核心的风险之一。它指模型生成了看似合理但实际错误的信息。
幻觉不是偶然小毛病,而是生成式模型机制的一部分。模型的目标是生成高概率文本,不是天然验证事实真伪。当上下文不足、问题模糊、检索错误、训练数据缺失时,模型仍然可能生成一个流畅答案。
降低幻觉需要系统工程,而不是一句 prompt 就能解决。常见手段包括:
- 使用 RAG 提供外部资料
- 要求答案引用来源
- 检索分数低时拒答
- 对数字、日期、金额、法规条款做二次校验
- 对关键动作增加人工确认
- 对模型输出做结构化验证
- 用评测集持续测试回答质量
业务场景越严肃,越不能把“回答流畅”当成“回答正确”。法律、医疗、财务、制度、合同、客户承诺、生产运维等场景,都需要更强的验证链路。
大模型应用的工程架构
一个典型的大模型应用通常不是一个 API 调用,而是一套完整链路:
前端交互
↓
鉴权与限流
↓
Prompt 编排
↓
检索 / 工具调用
↓
模型推理
↓
结果校验
↓
日志与评测
Prompt 编排负责把系统规则、用户问题、历史上下文、工具结果、检索资料组合成模型输入。鉴权负责判断用户能访问哪些资料和工具。限流负责控制成本和防止滥用。日志负责追踪问题,评测负责持续改进质量。
在生产环境里,模型调用只是其中一层。真正决定体验的是整条链路的稳定性:资料是否新,检索是否准,权限是否正确,失败是否可恢复,成本是否有上限,回答是否可追溯。
这也是为什么很多 AI 项目从 demo 到生产会遇到落差。Demo 阶段只要回答看起来不错;生产阶段要面对权限、并发、延迟、账单、合规、监控、异常输入、用户误用和持续维护。
成本:Token、延迟与模型选择
大模型成本通常由几部分组成:输入 Token、输出 Token、模型单价、推理延迟、上下文长度、并发规模、缓存命中率。
输入越长,prefill 越慢;输出越长,decode 越久;模型越强,单价通常越高;并发越多,服务端显存和吞吐压力越大。长上下文模型看起来很诱人,但长上下文不是替代检索的万能方案。能用 5 段资料回答的问题,不应该塞 500 段资料。
模型选择也不应该只看排行榜。更实用的做法是按任务分层:
- 简单分类、标签、摘要:小模型
- 知识库问答、客服辅助:中等模型 + RAG
- 复杂推理、代码、长文档分析:强模型
- 高风险动作:强模型 + 工具校验 + 人工确认
很多系统还会使用路由策略。先用小模型判断任务类型和复杂度,再决定调用哪一档模型。这样可以在体验和成本之间取得更好的平衡。
企业落地最值得关注的边界
大模型适合处理语言密集、知识密集、流程半结构化的工作。写作、总结、搜索、问答、客服、研发辅助、数据解释、知识管理、会议纪要、销售资料、培训支持,都是高频场景。
但大模型不适合无约束地替代确定性系统。金额计算、权限判断、状态变更、合规审批、核心交易、库存扣减、账务处理,仍然应该由传统系统和明确规则控制。模型可以解释、辅助、生成建议,但最终动作要进入可验证的业务逻辑。
最稳的落地方式,是让大模型站在业务系统旁边,先做“读”和“写”的增强,再逐步进入“查”和“办”。先让它读文档、读工单、读代码、读会议记录;再让它写摘要、写回复、写方案、写 SQL;然后接入检索、数据库和工具;最后才考虑受控执行。
一句话建立技术全景
大模型的底层是 Token 概率建模和大规模矩阵运算;Transformer 用注意力机制建立上下文关联;训练让模型获得通用语言和推理能力;推理通过逐 Token 解码生成回答;KV Cache 降低重复计算;RAG 把模型连接到外部知识;Agent 把模型连接到工具和行动。
理解这条链路后,大模型就不再只是一个聊天框。它是新的软件能力层:上接自然语言交互,下接知识、工具、数据和业务系统。真正的价值不在“像人一样说话”,而在于把复杂信息转化为可用答案,把分散知识转化为可复用能力,把自然语言转化为可执行流程。
Discussion
讨论
还没有讨论