写作语境说明:篇幅讨论的是 AI 写正经第三方文本(文章、报告、剧本、文档)时的自指现象,不讨论 AI 在对话场景下的自指——后者本来就该有"我"。
一、是什么
自我指涉(Self-reference) 在大模型语境里有一个朴素定义:模型在输出里指向"自己"或"自己刚刚输出的内容",而不是指向被写作的对象。
人类作家也会用"本文""下文",但用法稀疏、为信息组织服务。LLM 的自指特点是:密度高、出现位置不该出现、与写作任务无关。
典型表现可以分三类:
类型 A:文本元指涉(Textual meta-reference)
模型在文章正文里频繁谈论文章本身。
- "本文将探讨/本文聚焦/本文不讨论…"
- "在接下来的章节里,我们会看到…"
- "上一节提到的 X,在这里继续展开…"
- "总结一下本文的核心观点:"
这类自指最常见,因为它伪装成"写作结构感",看起来像在给读者导航,其实是模型在跟自己讲解输出顺序。
类型 B:角色元指涉(Role meta-reference)
模型谈论"自己是谁"。
- "作为一个 AI 助手,我…"
- "我的训练数据截止到…"
- "我无法访问实时网络…"
- "希望本回答对你有帮助。"
这类自指在写作任务里几乎全是穿帮——读者打开一篇技术博客,里面冒出"作为一个 AI 助手",可信度瞬间归零。
类型 C:任务元指涉(Task meta-reference)
模型在正文里复述与提问者的对话。
- "根据你提供的需求,我整理了…"
- "你提到的 X 这一点,可以扩展为…"
- "你希望了解的方向是…"
- "下面我将按照你的要求…"
这类自指最隐蔽,因为它读起来像"承接",实际上是把 prompt 上下文的对话痕迹直接搬到了正文里。读者(不是提问者)读到"你提到的 X"会一脸问号——谁提到?提给谁?
判断三类自指是否问题,只看一句话:把这句话搬到一本正式出版的书里,编辑会不会把它删掉?会删,就是 AI 味;不会删,就是合理写作惯例。
二、为什么重要
2.1 信任成本
一篇 800 字的技术文章,只要出现 1-2 处明显自指,读者会立刻识别"AI 写的",然后对内容信任度下调。这与内容本身的质量无关——它是风格触发的可信度衰减。
2.2 写作类 AI 产品的核心瓶颈
写作助手、报告生成、营销文案、新闻摘要、博客生成——所有 B 端写作类 AI 产品,自指都是头号 user complaint。OpenAI / Anthropic 在 system prompt 里都加了反自指条目("do not refer to yourself as an AI"),但仍然防不住。
2.3 暴露模型在"角色切换"上的弱点
Chat 场景下自指是合理的("我是 Claude");写作场景下自指就是穿帮。模型是否会自指,本质上反映它是否真的理解了当前任务的语境角色——很多时候模型并没切干净,于是把 chat 模板的尾巴带进了正文。
2.4 与"幻觉"是两类问题,但成因相关
幻觉是"内容错",自指是"语气错"。两者都源自模型对"训练分布"的过拟合:见过太多 chat 语料,所以默认输出 chat 风格;见过太多 placeholder,所以编造细节。两者一起决定了"AI 写出来的东西为什么读着不对劲"。
三、关键玩家与生态
3.1 各家模型的处境
| 模型家族 | 自指倾向 | 备注 |
|---|---|---|
| GPT-4 / 4o | 中高 | 类型 A、B 都有,类型 C 较少(OpenAI system prompt 训得较严) |
| Claude 3 / 4 | 中 | 类型 A 偏多(Anthropic 偏好"结构化交付"),类型 B 较少 |
| Gemini 1.5 / 2.x | 中高 | 类型 A、C 较多,第二人称频繁 |
| DeepSeek V3 / R1 | 中高 | 类型 A 偏多,与中文互联网博客文风一致 |
| Qwen 3.x | 中 | 类型 C 偏多,受中文问答训练分布影响明显 |
排序为体感观察,不是定量基准;各家迭代很快,结论会变。
3.2 解决方案生态
| 层次 | 代表方案 | 适用场景 | 局限 |
|---|---|---|---|
| 系统提示词 | OpenAI / Anthropic 默认 system prompt、Cursor / Claude Code 内置规则 | 通用 | 治标,依赖模型听话 |
| 提示词工程 | "anti-self-reference" prompt 模板、写作角色扮演("你是一个不会暴露 AI 身份的专栏作家") | 单次写作 | 容易被模型忽略 |
| 微调 / 蒸馏 | 在专属写作数据上做 SFT,剔除自指语料 | 写作类产品 | 成本高、可能损通用能力 |
| 后处理 | Lint 类正则 / 小模型校审,扫描并改写自指句 | 生产链路 | 维护成本、误伤率 |
| 多智能体 | 一个 agent 写,另一个 agent 校审 | Agentic 系统 | 延迟、token 成本翻倍 |
四、技术 / 实施细节(原理层)
自指不是某家模型的 bug,而是训练分布 + 网络架构 + 训练目标三层叠加的结构性现象。逐层拆。
4.1 训练分布:模型见过太多"AI 在说话"的语料
LLM 的预训练语料来自互联网,里面有:
- 大量 Q&A 网站(Stack Overflow、Quora、知乎)——天然第二人称对话
- 大量论坛博客("本文将介绍…"是中文博客写作惯例)
- 大量教程文档("接下来,我们将…")
- 近几年还混入了大量 ChatGPT 输出(AI 自己写的文章被人类拷贝回互联网,再被下一代模型当训练数据)
第四点是悄悄出现的"数据闭环":模型在用自己上一代的输出训练下一代,自指风格被无限放大。学界把这叫做 model collapse(Shumailov et al., Nature 2024),自指是其中一种可见的退化形式。
类比一下:一个孩子从小看综艺长大,他即使去主持新闻联播,开口也会带综艺腔。
4.2 Attention 的"近因偏置"
Transformer 的核心是 self-attention:生成每一个 token 时,模型回看整个上下文,给每个之前的 token 一个权重,再加权求和。
理论上 attention 没有距离偏好,但实际训练后会出现两个倾向:
- 近因偏置(recency bias):刚刚生成的 token 权重普遍偏高
- 位置回归(positional anchoring):模型容易把刚生成的内容当作"参照系"继续展开
后果就是:模型生成完一段后,下一段的 attention 会高度关注上一段,于是"上面提到的 X""刚才说的 Y"这种回指自然冒出来——因为对模型来说,"上文"是它视野里最显著的东西。
这是结构性的。哪怕你 prompt 里写"不要回指上文",attention 的统计偏置依然存在。
4.3 RLHF 的"播报员"放大效应
RLHF(Reinforcement Learning from Human Feedback)是当代大模型对齐的核心训练步骤。人类标注员给两个回答打分,模型学着输出"被人喜欢的回答"。
什么样的回答被打高分?
- 明确告知边界:"I can help with X but not Y"
- 结构化交付:"I'll cover three points: first… second… third…"
- 预告意图:"Let me explain step by step"
- 结尾收束:"In summary…"
这些偏好在 chat 场景下完全合理——清晰、有礼貌、可预期。但当任务从"聊天"切到"写一篇文章"时,这些"播报员"语气会泄漏到正文里:
- "Let me explain" → "下面我来解释一下"
- "I'll cover three points" → "本文将从三个方面展开"
- "In summary" → "总结一下本文的核心观点"
RLHF 没有教模型"在写小说时不要播报",因为绝大多数 RLHF 数据是 chat 数据。结果就是写作任务被 chat 风格污染。
Anthropic 在 Constitutional AI 论文里提到过类似问题:对齐目标和任务多样性之间存在张力,对齐做得越统一,任务适配性反而越窄。自指就是其中一种适配性损失。
4.4 Template / System Prompt Leakage
商用 LLM 在部署时几乎都有一段长 system prompt,告诉模型自己叫什么、能做什么、不能做什么。例如 Claude 的 system prompt 会包含类似 "You are Claude, an AI assistant made by Anthropic..." 的段落。
理论上 system prompt 不该出现在用户能看到的输出里。但因为模型在训练时见过大量 "I am an AI assistant" 范式,它会无意识把这类模板片段写进正文——这就是 template leakage(模板泄露)。
典型表现:让 Claude 扮演专栏作家写一篇技术博客,开头依然会冒出 "作为 AI 助手,我整理了…"。原因不是 system prompt 写得不好,而是训练分布把这套模板烧进了权重。
4.5 上下文里的"对话痕迹"被沿用
写作任务通常是这样发起的:
User: 帮我写一篇关于 X 的文章,要求包含 A、B、C 三个方面。
Assistant: [开始输出文章]
注意 prompt 里出现了"你"和"我"——这是对话语境。模型生成"文章"时,会沿用 prompt 的称谓体系,于是正文里就冒出"你提到的 A 这一点,可以扩展为…"。
这其实不是模型笨,而是 prompt 没有显式做"对话语境 → 写作语境"的切换。要避免它,正确的 prompt 模式是:
User: 用专栏作家的口吻写一篇关于 X 的文章。文章是给读者看的,
读者并不知道有这次对话,因此不要在文章里提及"你""我""本次需求""根据你的描述"等。
但即便这样,类型 C 自指仍然会在长输出里"复发"——因为 attention 总是回看上文,而上文最显著的就是 prompt 本身。
4.6 几个反直觉的小观察
- 越大的模型,自指未必越少。GPT-4 比 GPT-3.5 自指控制好,但 GPT-4o 在某些 prompt 下反而更明显——因为 4o 更"健谈"。
- 温度(temperature)调低不能减少自指。低 temperature 让模型更确定,但它对"自指是不是合适"这件事本来就有错误共识,越确定越自指。
- 思维链(CoT)会显著放大自指。让模型"先想再写","想"的过程会大量出现"让我先分析一下你的需求"——这些痕迹经常被带到最终输出。
- 小模型的自指更接近模板,大模型的自指更接近"风格"。小模型直接复制 "As an AI" 这种短语,大模型会编出"作为一名长期关注该领域的观察者,我想说…"这种伪装版自指——同样讨厌,但更难用正则抓住。
五、争议与风险
5.1 自指本质上是"对齐做得好"的副作用
有一派观点认为:模型能稳定输出"作为 AI 我不能…"是对齐成功的表现——它知道自己的边界、不会假装是人。从安全视角,自指是 feature 不是 bug。
反对观点:自我认知 ≠ 应该把自我认知写进任何上下文。一个职业演员演军人,不会在剧本里念"作为一个演员我认为这一段不合理"。模型缺的不是"知道自己是 AI",而是"知道什么时候该闭嘴"。
这场拉扯本质上是"对齐目标"和"任务通用性"的矛盾。短期看,对齐优先级更高,自指会继续存在。
5.2 工程缓解都有边界
| 缓解手段 | 边界 |
|---|---|
| Prompt 里加禁词清单 | 模型可能换同义表达绕过("本文" → "下文" → "接下来这部分") |
| 后处理 lint | 误伤合理用法(学术文章的"本文"是惯例)、维护规则爆炸 |
| 微调一份"不自指"模型 | 训练成本高、可能损失其他能力、需要持续维护 |
| 多 agent 校审 | 延迟翻倍、token 成本翻倍、校审 agent 自己也可能自指 |
没有银弹。生产里通常是 prompt 约束 + 轻量后处理组合,能压制 80% 但永远抓不完。
5.3 数据闭环问题正在恶化
Common Crawl 等大规模公开数据集里,AI 生成内容的占比正在快速上升。下一代 LLM 训练时会"吃自己的尾巴"——上一代模型的自指风格被当成"正确写作样本",继续放大。
学术界已经在讨论这个问题(model collapse、curse of recursion)。短期没有可靠的工程方案,长期可能要靠:
- 数据来源标注(区分 human-written vs AI-generated)
- 训练时给 AI 数据更低权重
- 用合成数据时刻意做"反自指"风格扰动
但这些都还在研究阶段。
5.4 中文场景比英文更顽固
中文互联网博客有一套强模板:"本文将介绍 X"、"接下来我们来看 Y"、"综上所述,Z"——这些在中文写作训练语料里密度极高。结果是:同一个模型,写英文文章自指较少,写中文文章自指明显加重。
这意味着中文写作类产品面临的自指问题比英文更严重,靠"换更强的模型"很难根治。
六、个人结论
一句话定性:自我指涉是 LLM 的"职业病",根因是训练分布 + attention 偏置 + RLHF 偏好三层叠加,不是单一模型缺陷,也不会通过"换更强模型"自然消失。
是否跟进:
- 跟进(必修):任何写作类 / 报告类 / 内容生成类 AI 应用都必须把自指当一等问题处理。否则用户在使用 3-5 次后就会归类为"AI 写的",产品信任度会被这一项单独拉垮。
- 观望(模型层根治):等待 Claude 4.x / GPT 5.x 是否把"写作语境识别"训练进基础模型;当前看不到一年内根治的迹象。
下一步行动建议:
- 把"反自指规则集"做成 prompt 模板的固定组件,覆盖类型 A / B / C 三类。
- 写作流程里加 lint 步骤——一个小型正则 + 关键词列表过滤,先抓 80% 明显的自指。
- 关键场景上多 agent 校审:写作 agent 出稿后,由独立的"风格审稿 agent"扫一遍自指与 AI 招牌句。
- 关注 model collapse 相关研究进展,评估是否需要在自有数据上做反自指 finetune。
- 中文写作类产品要额外做一遍中文招牌句库("本文""综上所述""接下来""值得一提的是"),不要只复用英文反自指清单。
七、信息来源
- Vaswani et al., "Attention Is All You Need" (NeurIPS 2017) — Transformer 与 attention 原始论文
- Christiano et al., "Deep Reinforcement Learning from Human Preferences" (NeurIPS 2017) — RLHF 思想起点
- Bai et al., "Constitutional AI: Harmlessness from AI Feedback" (Anthropic, 2022) — Constitutional AI 与对齐目标讨论
- Shumailov et al., "The Curse of Recursion: Training on Generated Data Makes Models Forget" (Nature 2024) — model collapse 与训练数据闭环
- OpenAI Model Spec — OpenAI 官方对模型行为(包括自我引用)的规范
- Anthropic — Claude's Constitution & Use Policy — Claude 行为规范公开文档
- Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (ACL 2024) — attention 在长上下文里的位置偏置(与近因偏置相关)
- Holtzman et al., "The Curious Case of Neural Text Degeneration" (ICLR 2020) — 解码策略与生成退化模式
Discussion
讨论
还没有讨论