大模型的自我指涉问题：为什么 AI 总爱说“不是……而是……”？

写作语境说明：篇幅讨论的是 AI 写正经第三方文本（文章、报告、剧本、文档）时的自指现象，不讨论 AI 在对话场景下的自指——后者本来就该有"我"。

图：让 LLM 写一篇技术博客，开头几乎必现"本文将探讨"——这不是巧合，是结构性偏置。

一、是什么

自我指涉（Self-reference） 在大模型语境里有一个朴素定义：模型在输出里指向"自己"或"自己刚刚输出的内容"，而不是指向被写作的对象。

人类作家也会用"本文""下文"，但用法稀疏、为信息组织服务。LLM 的自指特点是：密度高、出现位置不该出现、与写作任务无关。

典型表现可以分三类：

类型 A：文本元指涉（Textual meta-reference）

模型在文章正文里频繁谈论文章本身。

"本文将探讨/本文聚焦/本文不讨论…"
"在接下来的章节里，我们会看到…"
"上一节提到的 X，在这里继续展开…"
"总结一下本文的核心观点："

这类自指最常见，因为它伪装成"写作结构感"，看起来像在给读者导航，其实是模型在跟自己讲解输出顺序。

类型 B：角色元指涉（Role meta-reference）

模型谈论"自己是谁"。

"作为一个 AI 助手，我…"
"我的训练数据截止到…"
"我无法访问实时网络…"
"希望本回答对你有帮助。"

这类自指在写作任务里几乎全是穿帮——读者打开一篇技术博客，里面冒出"作为一个 AI 助手"，可信度瞬间归零。

类型 C：任务元指涉（Task meta-reference）

模型在正文里复述与提问者的对话。

"根据你提供的需求，我整理了…"
"你提到的 X 这一点，可以扩展为…"
"你希望了解的方向是…"
"下面我将按照你的要求…"

这类自指最隐蔽，因为它读起来像"承接"，实际上是把 prompt 上下文的对话痕迹直接搬到了正文里。读者（不是提问者）读到"你提到的 X"会一脸问号——谁提到？提给谁？

判断三类自指是否问题，只看一句话：把这句话搬到一本正式出版的书里，编辑会不会把它删掉？会删，就是 AI 味；不会删，就是合理写作惯例。

二、为什么重要

2.1 信任成本

一篇 800 字的技术文章，只要出现 1-2 处明显自指，读者会立刻识别"AI 写的"，然后对内容信任度下调。这与内容本身的质量无关——它是风格触发的可信度衰减。

2.2 写作类 AI 产品的核心瓶颈

写作助手、报告生成、营销文案、新闻摘要、博客生成——所有 B 端写作类 AI 产品，自指都是头号 user complaint。OpenAI / Anthropic 在 system prompt 里都加了反自指条目（"do not refer to yourself as an AI"），但仍然防不住。

2.3 暴露模型在"角色切换"上的弱点

Chat 场景下自指是合理的（"我是 Claude"）；写作场景下自指就是穿帮。模型是否会自指，本质上反映它是否真的理解了当前任务的语境角色——很多时候模型并没切干净，于是把 chat 模板的尾巴带进了正文。

2.4 与"幻觉"是两类问题，但成因相关

幻觉是"内容错"，自指是"语气错"。两者都源自模型对"训练分布"的过拟合：见过太多 chat 语料，所以默认输出 chat 风格；见过太多 placeholder，所以编造细节。两者一起决定了"AI 写出来的东西为什么读着不对劲"。

三、关键玩家与生态

3.1 各家模型的处境

模型家族	自指倾向	备注
GPT-4 / 4o	中高	类型 A、B 都有，类型 C 较少（OpenAI system prompt 训得较严）
Claude 3 / 4	中	类型 A 偏多（Anthropic 偏好"结构化交付"），类型 B 较少
Gemini 1.5 / 2.x	中高	类型 A、C 较多，第二人称频繁
DeepSeek V3 / R1	中高	类型 A 偏多，与中文互联网博客文风一致
Qwen 3.x	中	类型 C 偏多，受中文问答训练分布影响明显

排序为体感观察，不是定量基准；各家迭代很快，结论会变。

3.2 解决方案生态

层次	代表方案	适用场景	局限
系统提示词	OpenAI / Anthropic 默认 system prompt、Cursor / Claude Code 内置规则	通用	治标，依赖模型听话
提示词工程	"anti-self-reference" prompt 模板、写作角色扮演（"你是一个不会暴露 AI 身份的专栏作家"）	单次写作	容易被模型忽略
微调 / 蒸馏	在专属写作数据上做 SFT，剔除自指语料	写作类产品	成本高、可能损通用能力
后处理	Lint 类正则 / 小模型校审，扫描并改写自指句	生产链路	维护成本、误伤率
多智能体	一个 agent 写，另一个 agent 校审	Agentic 系统	延迟、token 成本翻倍

四、技术 / 实施细节（原理层）

自指不是某家模型的 bug，而是训练分布 + 网络架构 + 训练目标三层叠加的结构性现象。逐层拆。

4.1 训练分布：模型见过太多"AI 在说话"的语料

LLM 的预训练语料来自互联网，里面有：

大量 Q&A 网站（Stack Overflow、Quora、知乎）——天然第二人称对话
大量论坛博客（"本文将介绍…"是中文博客写作惯例）
大量教程文档（"接下来，我们将…"）
近几年还混入了大量 ChatGPT 输出（AI 自己写的文章被人类拷贝回互联网，再被下一代模型当训练数据）

第四点是悄悄出现的"数据闭环"：模型在用自己上一代的输出训练下一代，自指风格被无限放大。学界把这叫做 model collapse（Shumailov et al., Nature 2024），自指是其中一种可见的退化形式。

类比一下：一个孩子从小看综艺长大，他即使去主持新闻联播，开口也会带综艺腔。

4.2 Attention 的"近因偏置"

Transformer 的核心是 self-attention：生成每一个 token 时，模型回看整个上下文，给每个之前的 token 一个权重，再加权求和。

理论上 attention 没有距离偏好，但实际训练后会出现两个倾向：

近因偏置（recency bias）：刚刚生成的 token 权重普遍偏高
位置回归（positional anchoring）：模型容易把刚生成的内容当作"参照系"继续展开

后果就是：模型生成完一段后，下一段的 attention 会高度关注上一段，于是"上面提到的 X""刚才说的 Y"这种回指自然冒出来——因为对模型来说，"上文"是它视野里最显著的东西。

这是结构性的。哪怕你 prompt 里写"不要回指上文"，attention 的统计偏置依然存在。

4.3 RLHF 的"播报员"放大效应

RLHF（Reinforcement Learning from Human Feedback）是当代大模型对齐的核心训练步骤。人类标注员给两个回答打分，模型学着输出"被人喜欢的回答"。

什么样的回答被打高分？

明确告知边界："I can help with X but not Y"
结构化交付："I'll cover three points: first… second… third…"
预告意图："Let me explain step by step"
结尾收束："In summary…"

这些偏好在 chat 场景下完全合理——清晰、有礼貌、可预期。但当任务从"聊天"切到"写一篇文章"时，这些"播报员"语气会泄漏到正文里：

"Let me explain" → "下面我来解释一下"
"I'll cover three points" → "本文将从三个方面展开"
"In summary" → "总结一下本文的核心观点"

RLHF 没有教模型"在写小说时不要播报"，因为绝大多数 RLHF 数据是 chat 数据。结果就是写作任务被 chat 风格污染。

Anthropic 在 Constitutional AI 论文里提到过类似问题：对齐目标和任务多样性之间存在张力，对齐做得越统一，任务适配性反而越窄。自指就是其中一种适配性损失。

4.4 Template / System Prompt Leakage

商用 LLM 在部署时几乎都有一段长 system prompt，告诉模型自己叫什么、能做什么、不能做什么。例如 Claude 的 system prompt 会包含类似 "You are Claude, an AI assistant made by Anthropic..." 的段落。

理论上 system prompt 不该出现在用户能看到的输出里。但因为模型在训练时见过大量 "I am an AI assistant" 范式，它会无意识把这类模板片段写进正文——这就是 template leakage（模板泄露）。

典型表现：让 Claude 扮演专栏作家写一篇技术博客，开头依然会冒出 "作为 AI 助手，我整理了…"。原因不是 system prompt 写得不好，而是训练分布把这套模板烧进了权重。

4.5 上下文里的"对话痕迹"被沿用

写作任务通常是这样发起的：

User: 帮我写一篇关于 X 的文章，要求包含 A、B、C 三个方面。
Assistant: [开始输出文章]

注意 prompt 里出现了"你"和"我"——这是对话语境。模型生成"文章"时，会沿用 prompt 的称谓体系，于是正文里就冒出"你提到的 A 这一点，可以扩展为…"。

这其实不是模型笨，而是 prompt 没有显式做"对话语境 → 写作语境"的切换。要避免它，正确的 prompt 模式是：

User: 用专栏作家的口吻写一篇关于 X 的文章。文章是给读者看的，
读者并不知道有这次对话，因此不要在文章里提及"你""我""本次需求""根据你的描述"等。

但即便这样，类型 C 自指仍然会在长输出里"复发"——因为 attention 总是回看上文，而上文最显著的就是 prompt 本身。

4.6 几个反直觉的小观察

越大的模型，自指未必越少。GPT-4 比 GPT-3.5 自指控制好，但 GPT-4o 在某些 prompt 下反而更明显——因为 4o 更"健谈"。
温度（temperature）调低不能减少自指。低 temperature 让模型更确定，但它对"自指是不是合适"这件事本来就有错误共识，越确定越自指。
思维链（CoT）会显著放大自指。让模型"先想再写"，"想"的过程会大量出现"让我先分析一下你的需求"——这些痕迹经常被带到最终输出。
小模型的自指更接近模板，大模型的自指更接近"风格"。小模型直接复制 "As an AI" 这种短语，大模型会编出"作为一名长期关注该领域的观察者，我想说…"这种伪装版自指——同样讨厌，但更难用正则抓住。

五、争议与风险

5.1 自指本质上是"对齐做得好"的副作用

有一派观点认为：模型能稳定输出"作为 AI 我不能…"是对齐成功的表现——它知道自己的边界、不会假装是人。从安全视角，自指是 feature 不是 bug。

反对观点：自我认知 ≠ 应该把自我认知写进任何上下文。一个职业演员演军人，不会在剧本里念"作为一个演员我认为这一段不合理"。模型缺的不是"知道自己是 AI"，而是"知道什么时候该闭嘴"。

这场拉扯本质上是"对齐目标"和"任务通用性"的矛盾。短期看，对齐优先级更高，自指会继续存在。

5.2 工程缓解都有边界

缓解手段	边界
Prompt 里加禁词清单	模型可能换同义表达绕过（"本文" → "下文" → "接下来这部分"）
后处理 lint	误伤合理用法（学术文章的"本文"是惯例）、维护规则爆炸
微调一份"不自指"模型	训练成本高、可能损失其他能力、需要持续维护
多 agent 校审	延迟翻倍、token 成本翻倍、校审 agent 自己也可能自指

没有银弹。生产里通常是 prompt 约束 + 轻量后处理组合，能压制 80% 但永远抓不完。

5.3 数据闭环问题正在恶化

Common Crawl 等大规模公开数据集里，AI 生成内容的占比正在快速上升。下一代 LLM 训练时会"吃自己的尾巴"——上一代模型的自指风格被当成"正确写作样本"，继续放大。

学术界已经在讨论这个问题（model collapse、curse of recursion）。短期没有可靠的工程方案，长期可能要靠：

数据来源标注（区分 human-written vs AI-generated）
训练时给 AI 数据更低权重
用合成数据时刻意做"反自指"风格扰动

但这些都还在研究阶段。

5.4 中文场景比英文更顽固

中文互联网博客有一套强模板："本文将介绍 X"、"接下来我们来看 Y"、"综上所述，Z"——这些在中文写作训练语料里密度极高。结果是：同一个模型，写英文文章自指较少，写中文文章自指明显加重。

这意味着中文写作类产品面临的自指问题比英文更严重，靠"换更强的模型"很难根治。

六、个人结论

一句话定性：自我指涉是 LLM 的"职业病"，根因是训练分布 + attention 偏置 + RLHF 偏好三层叠加，不是单一模型缺陷，也不会通过"换更强模型"自然消失。

是否跟进：

跟进（必修）：任何写作类 / 报告类 / 内容生成类 AI 应用都必须把自指当一等问题处理。否则用户在使用 3-5 次后就会归类为"AI 写的"，产品信任度会被这一项单独拉垮。
观望（模型层根治）：等待 Claude 4.x / GPT 5.x 是否把"写作语境识别"训练进基础模型；当前看不到一年内根治的迹象。

下一步行动建议：

把"反自指规则集"做成 prompt 模板的固定组件，覆盖类型 A / B / C 三类。
写作流程里加 lint 步骤——一个小型正则 + 关键词列表过滤，先抓 80% 明显的自指。
关键场景上多 agent 校审：写作 agent 出稿后，由独立的"风格审稿 agent"扫一遍自指与 AI 招牌句。
关注 model collapse 相关研究进展，评估是否需要在自有数据上做反自指 finetune。
中文写作类产品要额外做一遍中文招牌句库（"本文""综上所述""接下来""值得一提的是"），不要只复用英文反自指清单。

七、信息来源

Vaswani et al., "Attention Is All You Need" (NeurIPS 2017) — Transformer 与 attention 原始论文
Christiano et al., "Deep Reinforcement Learning from Human Preferences" (NeurIPS 2017) — RLHF 思想起点
Bai et al., "Constitutional AI: Harmlessness from AI Feedback" (Anthropic, 2022) — Constitutional AI 与对齐目标讨论
Shumailov et al., "The Curse of Recursion: Training on Generated Data Makes Models Forget" (Nature 2024) — model collapse 与训练数据闭环
OpenAI Model Spec — OpenAI 官方对模型行为（包括自我引用）的规范
Anthropic — Claude's Constitution & Use Policy — Claude 行为规范公开文档
Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (ACL 2024) — attention 在长上下文里的位置偏置（与近因偏置相关）
Holtzman et al., "The Curious Case of Neural Text Degeneration" (ICLR 2020) — 解码策略与生成退化模式