字节 AI Coding 的三个反思：代码占比不该当 KPI

写在前面：这不是我的原创观察，是一篇研读。原始分享来自字节跳动技术副总裁洪定坤关于 AI Coding 的演讲，我读的是公众号「小盖fun」的整理稿。下面保留他给的数据和例子，夹带一些我自己的体感；想看原话去找演讲全文。

字节在 AI Coding 上的实践挺有代表性，做研发的大概率会有共鸣。洪定坤这次讲的三点，我觉得更像字节的一次真实反思，甚至有点「拨乱反正」的意思——因为过去一年，「我用了多少 Token」「我 90% 代码是 AI 写的」这类话说得太多了。

反思一：AI 代码贡献率不该当 KPI

先看一组把人拉回地面的数字。TRAE 团队自己就是做 AI 工具的，用 AI Coding 最积极，过去半年 94% 的代码由 AI 贡献——但人均需求吞吐率只涨了 60%，也就是 1.6 倍。

这就别扭了。AI 写代码起码是人的十倍速，九成代码都它写的，效率不该翻五倍十倍吗？为什么只有 1.6 倍？

字节的结论是：单一指标（比如 AI 代码占比）代表不了真实生产力。你把它当 KPI，大家就会去冲 AI 的生成量，而不是冲交付能力——看着 AI 用得很猛，系统效率其实没变好。

原因也不玄：写代码只是研发链条里的一环。写之前要理解需求、写 Spec，写完要验证、提交、发布。这些环节还用老办法，只把「写」加速了，整体自然提不上来。洪定坤把字节的方向叫系统化的 AI Development——让 AI 进到更多环节，整条链路跑通，效率才真上得来。

我的体感：现在还有不少团队在盯员工烧了多少 Token，这是在盯过程。该盯的是结果——用了工具之后，交付到底有没有更快、更可靠。一个团队天天说自己 AI 玩得溜、Token 消耗惊人，却没什么有效产出，这算好事还是坏事？值得每个管理者想想。

反思二：功能正确 ≠ 工程可用

Vibe Coding 的理想态是：像聊天一样用自然语言提需求，做出想要的产品，哪里不对再用自然语言让它改。做小项目、验证想法，这套完全够用，我自己不少小东西就是这么跑出来的。

但只要做生产级软件，无论公司大小，流程都不长这样。因为公司里必然有老代码、有一套约束：怎么复用已有组件，安全权限怎么办，性能怎么保证，还有兼容性、可维护性。写过工程代码的人都清楚，理想态更适合小项目。

字节做了个实验验证：3 个模型 × 3 个 Agent 框架 = 9 种组合，同一个需求每组跑 100 次，共 900 次。结果是——功能正确率所有组合都过 80%，把功能写对这件事，AI 已经过了及格线；但工程质量普遍不行：UI 不对、不复用组件、性能有问题、结构不合规范。这些坑用 AI 写过代码的都踩过。

洪定坤有个判断我很认同：上牌桌的 Coding 模型都过了 Opus 4.6 那个临界点，能自主写代码了，这时候决定成败的不是裸模型，是裸模型加 Harness。

最触动我的是字节对 Harness 的理解。行业还习惯把 Harness 等同于 Agent 框架——single agent 还是 multi agent、有哪些角色、怎么配合。这些当然重要，但字节发现，真正决定能不能落地的是更基础、更工程化的东西，洪定坤叫它基建：上下文工程做没做好、架构约束清不清晰、团队知识能不能沉淀、技术债有没有梳理清楚。

数据也撑得住：同样的模型和框架，把基建结合进去后，功能正确率从 80% 提到接近 90%，工程质量得分从 40–60 分的不及格，普遍提到 80 分左右。基建做不好，Vibe Coding 感觉快了，整体可能更慢——工程的债，迟早得还。

反思三：代码门槛降了，团队怎么协同

分享里有个例子我印象很深。产品经理有个需求，等不及研发排期，干脆自己用 AI 三下五除二实现了——功能不复杂。做完把代码丢给研发：我写完了，你帮忙上线就行。研发一看：不行，能跑，但不符合上线规范，有权限、安全问题。产品经理很委屈：你们没空做，我做完了又不让上。研发看到的却是代码质量。

这里有件所有人都得正视的事：代码的生成门槛降了，系统的复杂度没降。真实业务系统里，代码要放进已有架构、跟已有模块配合、考虑一堆问题，不是谁写出来就能直接上线。

所以下一道题是：怎么让不同角色用同一套工具和规范，做出符合要求的代码。字节的思路是工具化——把内部实践直接产品化，沉淀进 TRAE，开放给所有人。

我读完的一句话

这次分享值钱的地方，不在于又秀了多少 AI 战绩，而在于把话说回了地面：Token 消耗、代码占比都是过程指标，交付才是结果。门槛降了不等于复杂度降了，基建和协同才是硬骨头。做研发的看完，大概会点头。

信息来源

一手 / 外部资料

原始分享：字节跳动技术副总裁 洪定坤关于 AI Coding 的演讲（TRAE 数据、900 次实验、Harness 与基建等判断均出自该分享）。
整理来源：公众号 小盖fun（本篇据其整理稿研读，数据与例子以原分享/整理稿为准，未逐一独立核验）。

站内交叉（同主题延伸阅读）

Vibe Coding 真香也真险：一次幻觉漂移，足以吃掉全部效率红利 —— 本篇「功能正确≠工程可用」的另一面：Vibe Coding 的效率红利怎么被工程质量吃掉。
多 Agent 框架横向对比调研 —— 对照「Harness ≠ Agent 框架」这个判断，看框架层到底解决什么、不解决什么。
轻量化技术创业中的自害型技术债 —— 「工程的债迟早得还」的具体案例。
豆包手机 App 技术架构调研：一次 LLM 原生应用的分层猜想 —— 同样从字节视角看 AI 工程化的另一条线。

写在前面：这不是我的原创观察，是一篇研读。原始分享来自字节跳动技术副总裁洪定坤关于 AI Coding 的演讲，我读的是公众号「小盖fun」的整理稿。下面保留他给的数据和例子，夹带一些我自己的体感；想看原话去找演讲全文。

反思一：AI 代码贡献率不该当 KPI

这就别扭了。AI 写代码起码是人的十倍速，九成代码都它写的，效率不该翻五倍十倍吗？为什么只有 1.6 倍？

我的体感：现在还有不少团队在盯员工烧了多少 Token，这是在盯过程。该盯的是结果——用了工具之后，交付到底有没有更快、更可靠。一个团队天天说自己 AI 玩得溜、Token 消耗惊人，却没什么有效产出，这算好事还是坏事？值得每个管理者想想。

反思二：功能正确 ≠ 工程可用

洪定坤有个判断我很认同：上牌桌的 Coding 模型都过了 Opus 4.6 那个临界点，能自主写代码了，这时候决定成败的不是裸模型，是裸模型加 Harness。

反思三：代码门槛降了，团队怎么协同

我读完的一句话

信息来源

一手 / 外部资料

原始分享：字节跳动技术副总裁 洪定坤关于 AI Coding 的演讲（TRAE 数据、900 次实验、Harness 与基建等判断均出自该分享）。
整理来源：公众号 小盖fun（本篇据其整理稿研读，数据与例子以原分享/整理稿为准，未逐一独立核验）。

站内交叉（同主题延伸阅读）

Vibe Coding 真香也真险：一次幻觉漂移，足以吃掉全部效率红利 —— 本篇「功能正确≠工程可用」的另一面：Vibe Coding 的效率红利怎么被工程质量吃掉。
多 Agent 框架横向对比调研 —— 对照「Harness ≠ Agent 框架」这个判断，看框架层到底解决什么、不解决什么。
轻量化技术创业中的自害型技术债 —— 「工程的债迟早得还」的具体案例。
豆包手机 App 技术架构调研：一次 LLM 原生应用的分层猜想 —— 同样从字节视角看 AI 工程化的另一条线。

字节 AI Coding 的三个反思：代码占比不该当 KPI

反思一：AI 代码贡献率不该当 KPI

反思二：功能正确 ≠ 工程可用

反思三：代码门槛降了，团队怎么协同

我读完的一句话

信息来源

讨论

字节 AI Coding 的三个反思：代码占比不该当 KPI

反思一：AI 代码贡献率不该当 KPI

反思二：功能正确 ≠ 工程可用

反思三：代码门槛降了，团队怎么协同

我读完的一句话

信息来源

讨论