T
TUARAN涂阿燃 · 网络日志

Menu

...

检查登录状态…

© 2025—2026 网络日志·关于本站·关于站长·聊合作·留言板·RSS·支持本站·流量统计·提建议·CI Status

知识库·事项调研·技术·2026-05-27·19 min read·阅读量 -·协助:Opus 4.7
RSS

大模型的自我指涉问题:为什么 AI 总爱说“不是……而是……”?

涂阿燃 · tuaran前端 / AI Agent / 政企方案

在 2aran.com 写技术调研、AI 工程实践与独立开发笔记。 关于站长 →

TL;DR自我指涉是 LLM 的职业病,根因在数据 + 训练目标,模型层根治很难,工程层用 prompt 约束 + 后处理 lint 是当下最现实的缓解路径。
#大模型#LLM#AI 写作#RLHF#Transformer#Prompt Engineering#自我指涉
文章目录
  • 一、是什么
  • 二、为什么重要
  • 三、关键玩家与生态
  • 四、技术 / 实施细节(原理层)
  • 五、争议与风险
  • 六、个人结论
  • 七、信息来源

写作语境说明:篇幅讨论的是 AI 写正经第三方文本(文章、报告、剧本、文档)时的自指现象,不讨论 AI 在对话场景下的自指——后者本来就该有"我"。

Self-reference in LLM writing
图:让 LLM 写一篇技术博客,开头几乎必现"本文将探讨"——这不是巧合,是结构性偏置。

一、是什么

自我指涉(Self-reference) 在大模型语境里有一个朴素定义:模型在输出里指向"自己"或"自己刚刚输出的内容",而不是指向被写作的对象。

人类作家也会用"本文""下文",但用法稀疏、为信息组织服务。LLM 的自指特点是:密度高、出现位置不该出现、与写作任务无关。

典型表现可以分三类:

类型 A:文本元指涉(Textual meta-reference)

模型在文章正文里频繁谈论文章本身。

  • "本文将探讨/本文聚焦/本文不讨论…"
  • "在接下来的章节里,我们会看到…"
  • "上一节提到的 X,在这里继续展开…"
  • "总结一下本文的核心观点:"

这类自指最常见,因为它伪装成"写作结构感",看起来像在给读者导航,其实是模型在跟自己讲解输出顺序。

类型 B:角色元指涉(Role meta-reference)

模型谈论"自己是谁"。

  • "作为一个 AI 助手,我…"
  • "我的训练数据截止到…"
  • "我无法访问实时网络…"
  • "希望本回答对你有帮助。"

这类自指在写作任务里几乎全是穿帮——读者打开一篇技术博客,里面冒出"作为一个 AI 助手",可信度瞬间归零。

类型 C:任务元指涉(Task meta-reference)

模型在正文里复述与提问者的对话。

  • "根据你提供的需求,我整理了…"
  • "你提到的 X 这一点,可以扩展为…"
  • "你希望了解的方向是…"
  • "下面我将按照你的要求…"

这类自指最隐蔽,因为它读起来像"承接",实际上是把 prompt 上下文的对话痕迹直接搬到了正文里。读者(不是提问者)读到"你提到的 X"会一脸问号——谁提到?提给谁?

判断三类自指是否问题,只看一句话:把这句话搬到一本正式出版的书里,编辑会不会把它删掉?会删,就是 AI 味;不会删,就是合理写作惯例。

二、为什么重要

2.1 信任成本

一篇 800 字的技术文章,只要出现 1-2 处明显自指,读者会立刻识别"AI 写的",然后对内容信任度下调。这与内容本身的质量无关——它是风格触发的可信度衰减。

2.2 写作类 AI 产品的核心瓶颈

写作助手、报告生成、营销文案、新闻摘要、博客生成——所有 B 端写作类 AI 产品,自指都是头号 user complaint。OpenAI / Anthropic 在 system prompt 里都加了反自指条目("do not refer to yourself as an AI"),但仍然防不住。

2.3 暴露模型在"角色切换"上的弱点

Chat 场景下自指是合理的("我是 Claude");写作场景下自指就是穿帮。模型是否会自指,本质上反映它是否真的理解了当前任务的语境角色——很多时候模型并没切干净,于是把 chat 模板的尾巴带进了正文。

2.4 与"幻觉"是两类问题,但成因相关

幻觉是"内容错",自指是"语气错"。两者都源自模型对"训练分布"的过拟合:见过太多 chat 语料,所以默认输出 chat 风格;见过太多 placeholder,所以编造细节。两者一起决定了"AI 写出来的东西为什么读着不对劲"。

三、关键玩家与生态

3.1 各家模型的处境

模型家族 自指倾向 备注
GPT-4 / 4o 中高 类型 A、B 都有,类型 C 较少(OpenAI system prompt 训得较严)
Claude 3 / 4 中 类型 A 偏多(Anthropic 偏好"结构化交付"),类型 B 较少
Gemini 1.5 / 2.x 中高 类型 A、C 较多,第二人称频繁
DeepSeek V3 / R1 中高 类型 A 偏多,与中文互联网博客文风一致
Qwen 3.x 中 类型 C 偏多,受中文问答训练分布影响明显

排序为体感观察,不是定量基准;各家迭代很快,结论会变。

3.2 解决方案生态

层次 代表方案 适用场景 局限
系统提示词 OpenAI / Anthropic 默认 system prompt、Cursor / Claude Code 内置规则 通用 治标,依赖模型听话
提示词工程 "anti-self-reference" prompt 模板、写作角色扮演("你是一个不会暴露 AI 身份的专栏作家") 单次写作 容易被模型忽略
微调 / 蒸馏 在专属写作数据上做 SFT,剔除自指语料 写作类产品 成本高、可能损通用能力
后处理 Lint 类正则 / 小模型校审,扫描并改写自指句 生产链路 维护成本、误伤率
多智能体 一个 agent 写,另一个 agent 校审 Agentic 系统 延迟、token 成本翻倍

四、技术 / 实施细节(原理层)

自指不是某家模型的 bug,而是训练分布 + 网络架构 + 训练目标三层叠加的结构性现象。逐层拆。

4.1 训练分布:模型见过太多"AI 在说话"的语料

LLM 的预训练语料来自互联网,里面有:

  • 大量 Q&A 网站(Stack Overflow、Quora、知乎)——天然第二人称对话
  • 大量论坛博客("本文将介绍…"是中文博客写作惯例)
  • 大量教程文档("接下来,我们将…")
  • 近几年还混入了大量 ChatGPT 输出(AI 自己写的文章被人类拷贝回互联网,再被下一代模型当训练数据)

第四点是悄悄出现的"数据闭环":模型在用自己上一代的输出训练下一代,自指风格被无限放大。学界把这叫做 model collapse(Shumailov et al., Nature 2024),自指是其中一种可见的退化形式。

类比一下:一个孩子从小看综艺长大,他即使去主持新闻联播,开口也会带综艺腔。

4.2 Attention 的"近因偏置"

Transformer 的核心是 self-attention:生成每一个 token 时,模型回看整个上下文,给每个之前的 token 一个权重,再加权求和。

理论上 attention 没有距离偏好,但实际训练后会出现两个倾向:

  1. 近因偏置(recency bias):刚刚生成的 token 权重普遍偏高
  2. 位置回归(positional anchoring):模型容易把刚生成的内容当作"参照系"继续展开

后果就是:模型生成完一段后,下一段的 attention 会高度关注上一段,于是"上面提到的 X""刚才说的 Y"这种回指自然冒出来——因为对模型来说,"上文"是它视野里最显著的东西。

这是结构性的。哪怕你 prompt 里写"不要回指上文",attention 的统计偏置依然存在。

4.3 RLHF 的"播报员"放大效应

RLHF(Reinforcement Learning from Human Feedback)是当代大模型对齐的核心训练步骤。人类标注员给两个回答打分,模型学着输出"被人喜欢的回答"。

什么样的回答被打高分?

  • 明确告知边界:"I can help with X but not Y"
  • 结构化交付:"I'll cover three points: first… second… third…"
  • 预告意图:"Let me explain step by step"
  • 结尾收束:"In summary…"

这些偏好在 chat 场景下完全合理——清晰、有礼貌、可预期。但当任务从"聊天"切到"写一篇文章"时,这些"播报员"语气会泄漏到正文里:

  • "Let me explain" → "下面我来解释一下"
  • "I'll cover three points" → "本文将从三个方面展开"
  • "In summary" → "总结一下本文的核心观点"

RLHF 没有教模型"在写小说时不要播报",因为绝大多数 RLHF 数据是 chat 数据。结果就是写作任务被 chat 风格污染。

Anthropic 在 Constitutional AI 论文里提到过类似问题:对齐目标和任务多样性之间存在张力,对齐做得越统一,任务适配性反而越窄。自指就是其中一种适配性损失。

4.4 Template / System Prompt Leakage

商用 LLM 在部署时几乎都有一段长 system prompt,告诉模型自己叫什么、能做什么、不能做什么。例如 Claude 的 system prompt 会包含类似 "You are Claude, an AI assistant made by Anthropic..." 的段落。

理论上 system prompt 不该出现在用户能看到的输出里。但因为模型在训练时见过大量 "I am an AI assistant" 范式,它会无意识把这类模板片段写进正文——这就是 template leakage(模板泄露)。

典型表现:让 Claude 扮演专栏作家写一篇技术博客,开头依然会冒出 "作为 AI 助手,我整理了…"。原因不是 system prompt 写得不好,而是训练分布把这套模板烧进了权重。

4.5 上下文里的"对话痕迹"被沿用

写作任务通常是这样发起的:

User: 帮我写一篇关于 X 的文章,要求包含 A、B、C 三个方面。
Assistant: [开始输出文章]

注意 prompt 里出现了"你"和"我"——这是对话语境。模型生成"文章"时,会沿用 prompt 的称谓体系,于是正文里就冒出"你提到的 A 这一点,可以扩展为…"。

这其实不是模型笨,而是 prompt 没有显式做"对话语境 → 写作语境"的切换。要避免它,正确的 prompt 模式是:

User: 用专栏作家的口吻写一篇关于 X 的文章。文章是给读者看的,
读者并不知道有这次对话,因此不要在文章里提及"你""我""本次需求""根据你的描述"等。

但即便这样,类型 C 自指仍然会在长输出里"复发"——因为 attention 总是回看上文,而上文最显著的就是 prompt 本身。

4.6 几个反直觉的小观察

  • 越大的模型,自指未必越少。GPT-4 比 GPT-3.5 自指控制好,但 GPT-4o 在某些 prompt 下反而更明显——因为 4o 更"健谈"。
  • 温度(temperature)调低不能减少自指。低 temperature 让模型更确定,但它对"自指是不是合适"这件事本来就有错误共识,越确定越自指。
  • 思维链(CoT)会显著放大自指。让模型"先想再写","想"的过程会大量出现"让我先分析一下你的需求"——这些痕迹经常被带到最终输出。
  • 小模型的自指更接近模板,大模型的自指更接近"风格"。小模型直接复制 "As an AI" 这种短语,大模型会编出"作为一名长期关注该领域的观察者,我想说…"这种伪装版自指——同样讨厌,但更难用正则抓住。

五、争议与风险

5.1 自指本质上是"对齐做得好"的副作用

有一派观点认为:模型能稳定输出"作为 AI 我不能…"是对齐成功的表现——它知道自己的边界、不会假装是人。从安全视角,自指是 feature 不是 bug。

反对观点:自我认知 ≠ 应该把自我认知写进任何上下文。一个职业演员演军人,不会在剧本里念"作为一个演员我认为这一段不合理"。模型缺的不是"知道自己是 AI",而是"知道什么时候该闭嘴"。

这场拉扯本质上是"对齐目标"和"任务通用性"的矛盾。短期看,对齐优先级更高,自指会继续存在。

5.2 工程缓解都有边界

缓解手段 边界
Prompt 里加禁词清单 模型可能换同义表达绕过("本文" → "下文" → "接下来这部分")
后处理 lint 误伤合理用法(学术文章的"本文"是惯例)、维护规则爆炸
微调一份"不自指"模型 训练成本高、可能损失其他能力、需要持续维护
多 agent 校审 延迟翻倍、token 成本翻倍、校审 agent 自己也可能自指

没有银弹。生产里通常是 prompt 约束 + 轻量后处理组合,能压制 80% 但永远抓不完。

5.3 数据闭环问题正在恶化

Common Crawl 等大规模公开数据集里,AI 生成内容的占比正在快速上升。下一代 LLM 训练时会"吃自己的尾巴"——上一代模型的自指风格被当成"正确写作样本",继续放大。

学术界已经在讨论这个问题(model collapse、curse of recursion)。短期没有可靠的工程方案,长期可能要靠:

  • 数据来源标注(区分 human-written vs AI-generated)
  • 训练时给 AI 数据更低权重
  • 用合成数据时刻意做"反自指"风格扰动

但这些都还在研究阶段。

5.4 中文场景比英文更顽固

中文互联网博客有一套强模板:"本文将介绍 X"、"接下来我们来看 Y"、"综上所述,Z"——这些在中文写作训练语料里密度极高。结果是:同一个模型,写英文文章自指较少,写中文文章自指明显加重。

这意味着中文写作类产品面临的自指问题比英文更严重,靠"换更强的模型"很难根治。

六、个人结论

一句话定性:自我指涉是 LLM 的"职业病",根因是训练分布 + attention 偏置 + RLHF 偏好三层叠加,不是单一模型缺陷,也不会通过"换更强模型"自然消失。

是否跟进:

  • 跟进(必修):任何写作类 / 报告类 / 内容生成类 AI 应用都必须把自指当一等问题处理。否则用户在使用 3-5 次后就会归类为"AI 写的",产品信任度会被这一项单独拉垮。
  • 观望(模型层根治):等待 Claude 4.x / GPT 5.x 是否把"写作语境识别"训练进基础模型;当前看不到一年内根治的迹象。

下一步行动建议:

  1. 把"反自指规则集"做成 prompt 模板的固定组件,覆盖类型 A / B / C 三类。
  2. 写作流程里加 lint 步骤——一个小型正则 + 关键词列表过滤,先抓 80% 明显的自指。
  3. 关键场景上多 agent 校审:写作 agent 出稿后,由独立的"风格审稿 agent"扫一遍自指与 AI 招牌句。
  4. 关注 model collapse 相关研究进展,评估是否需要在自有数据上做反自指 finetune。
  5. 中文写作类产品要额外做一遍中文招牌句库("本文""综上所述""接下来""值得一提的是"),不要只复用英文反自指清单。

七、信息来源

  • Vaswani et al., "Attention Is All You Need" (NeurIPS 2017) — Transformer 与 attention 原始论文
  • Christiano et al., "Deep Reinforcement Learning from Human Preferences" (NeurIPS 2017) — RLHF 思想起点
  • Bai et al., "Constitutional AI: Harmlessness from AI Feedback" (Anthropic, 2022) — Constitutional AI 与对齐目标讨论
  • Shumailov et al., "The Curse of Recursion: Training on Generated Data Makes Models Forget" (Nature 2024) — model collapse 与训练数据闭环
  • OpenAI Model Spec — OpenAI 官方对模型行为(包括自我引用)的规范
  • Anthropic — Claude's Constitution & Use Policy — Claude 行为规范公开文档
  • Liu et al., "Lost in the Middle: How Language Models Use Long Contexts" (ACL 2024) — attention 在长上下文里的位置偏置(与近因偏置相关)
  • Holtzman et al., "The Curious Case of Neural Text Degeneration" (ICLR 2020) — 解码策略与生成退化模式
    电路板与前沿技术研究

Support

支持这篇调研

一下点赞、一句评论,都是对继续写下去的支持。

评论

Related

同类调研

  • 2026-07-02 14:50微信原生智能体「小微」调研:灰度进展与 WeLM 技术架构
  • 2026-07-02 09:27策展人平台调研:从收藏夹到可商业化的内容入口
  • 2026-07-02Cloudflare 免费与付费服务边界深度调研

Discussion

讨论

还没有讨论

以游客身份发表 —— 登录后历史评论会自动绑定到你的账号
1000 字
来留下第一条讨论。

Stay in touch

写完一篇 · 走到下一段

Newsletter

每周收一封,少刷一点信息流

我会把新文章、调研、资源更新和工具发布整理成一封邮件。频率克制,不做日更轰炸。

先用本站 D1 记录订阅;配置 Buttondown token 后会同步到 Buttondown。

📡
RSS 订阅 →

2aran.com/rss.xml · 用你的阅读器订阅,不错过任何一篇

💬
加入社群 →

微信小红书读者群,不焦虑,慢节奏

📚
知识库 →

精选文章 + 公司调研 + 事项调研 + 人物调研

👋
关于站长 →

前端 · AI Agent · 政企方案

合作 / 咨询 / 调研定制见 合作说明 · 微信 atar24