类 AGI 智能体调研：真正能干活的第一梯队，以及谁真的在用

写在前面：这篇不是要宣布谁已经实现 AGI。这个词太大，也太容易把文章写虚。我这里说的「类 AGI」，标准很窄：能不能真正工作，能不能操作电脑或代码库，能不能跑一段时间后交出一个可以验收的结果。只会对话、只会给建议，我不把它放进第一梯队。

一、先把话说直

我现在的判断是：

最接近类 AGI 体验的东西，核心不在某个单独模型，在一套能干活的系统。

模型只是里面最亮的那一块。真正让我觉得「它开始像智能体了」的，是它背后接上了终端、文件系统、代码库、浏览器、测试环境、权限确认，还有一个人在最后验收。

按这个口径看，今天的第一梯队大概可以这样分：

我怎么看	代表产品	最强的地方	主要是谁在用
真正能工作的第一梯队	Codex、Claude Code	读代码库、改文件、跑验证、交付可审查结果	程序员、vibe coder、AI-native 小团队
目前最普世好用	Codex	云端/本地都能接任务，操作成本低，结果容易验收	程序员、独立开发者、做项目的人
本地终端最强工作流	Claude Code	贴近 shell、仓库、本地工具链，适合深度开发者	高级程序员、工程团队
对话入口里的任务助手	ChatGPT Agent	查资料、整理内容、跑轻量任务	知识工作者、研究员、运营、创作者
未来随身助理原型	Gemini / Project Astra	语音、视觉、实时多模态、跨设备	Google 生态用户、早期测试者、未来手机/眼镜用户
企业落地平台	Microsoft Copilot Studio	权限、流程、内部数据、审批、审计	大企业 IT、客服、财务、HR、法务
小团队工作台	OpenClaw、Manus、Genspark、Comet	把搜索、浏览器、文档、代码、消息入口串起来	超级个体、独立开发者、自动化玩家

如果一定要压成一句话，我会这么写：

真正能干活的第一梯队，是 Codex 和 Claude Code；其中 Codex 目前最普世、最好用。OpenClaw 这类系统更像高手自己搭出来的 agent 操作系统。

再暴论一点：

截至 2026-06-17，我认知里最强的通用工作型智能体是 Codex；最值得观察的第一用户样本，是 OpenClaw 核心 3 人团队。

这里我故意说「用户样本」，不说「全球第一用户」。因为用量、收益、真实产出这些东西外部很难完全核验。但从公开可见的工作方式看，他们代表的方向很清楚：AI 不是聊天工具，agent 是执行层。

二、我目前看到的几条线

2.1 Codex：目前最普世好用的工作型 agent

如果只按「能不能真正工作」来排，我会把 Codex 放在最前面。

原因很朴素：它能进代码库，能读文件，能改文件，能跑命令，能看报错，能再改，最后把结果摆出来让人审。这个闭环很重要。没有闭环，智能体再会说，也只是建议。

Codex 最普世的地方也在这里。它不像很多本地 agent 那样先要你折腾一堆配置，也不像纯聊天产品那样停在回答层。你给它一个工程任务，它能开始干活。对普通开发者、独立开发者、小团队来说，这已经很接近「把一个人叫过来帮我改项目」的感觉了。

当然，它也不是全自动员工。需求拆得烂，它会跑偏；测试不完整，它也可能漏；涉及产品判断和线上风险，还是要人看。但在当前能用到的智能体里，Codex 的「工作感」最强。

这也是我现在会说「Codex 最普世好用」的原因。它当然不是什么都能做；但在真正能工作这件事上，它门槛低、闭环清楚、结果可验收。

如果把「通用」理解成普通人生活里的所有杂事，Codex 当然不是。但如果把「通用」理解成一个智能体能接复杂目标、能操作环境、能产出结果、能被验收，那 Codex 目前很靠前。

2.2 Claude Code：更贴近本地终端的强工具

Claude Code 是另一条很强的线。它更贴近本地终端，更适合已经习惯 shell、仓库、脚本、MCP、hook 的开发者。

它的优点不在「更像普通人助手」，在「更像开发者手边的第二双手」。它可以贴着当前项目跑，读上下文，改跨文件任务，接本地工具链。对高级程序员来说，这种贴近本地环境的感觉很重要。

如果说 Codex 的优势是普世好用，Claude Code 的优势就是深度。它更吃使用者能力。会用的人可以把它用得很猛，不会用的人可能只觉得它是一个命令行版聊天框。

2.3 ChatGPT Agent：我不会把它放第一

ChatGPT Agent 当然有价值。它能查资料、整理内容、跑一些轻量任务，普通人也容易理解。

但按我这篇文章的标准，它不能放在第一。原因也很直接：它给人的主要体验还是对话入口里的任务助手，离「真的接管电脑干活」还差一层。

我不想把「能对话、能查资料、能整理文档」和「能操作电脑、能改项目、能跑验证」放在同一个强度里比。前者有用，但后者才是我这里说的类 AGI 智能体。

2.4 Project Astra / Gemini：更像未来的随身 AI

Google 的 Project Astra 走的是另一条路。它不止是网页里的助手，还往实时、多模态、能看见、能听见、能跟着设备走的方向走。

这条线今天未必最能提高生产力，但它最接近很多人想象里的「个人 AI」。

手机、眼镜、耳机、车机，这些入口一旦串起来，AI 就不再只是你打开网页后才出现的工具。它会更像一直在你身边的东西。

我对 Astra 的看法是：它现在不一定最能干活，但它代表了一个方向。未来如果真有一个像随身助理一样的智能体，大概率会更接近这条线，命令行工具不会是唯一答案。

2.5 Microsoft Copilot Studio：企业不会先要一个万能机器人

企业对智能体的想法和个人不一样。

个人会问：它聪不聪明？
企业会问：它能不能接 SharePoint？能不能进 Teams？能不能按权限读数据？能不能审计？出了事谁负责？

这就是 Microsoft Copilot Studio 这类平台的价值。

它未必给人最强的科幻感，但它更像企业里真正会落地的 agent 基础设施。客服一个 agent，财务一个 agent，HR 一个 agent，IT 工单一个 agent，每个 agent 权限都受限，有日志，有流程，有人兜底。

企业版的「类 AGI」不会先表现为一个全能大脑。它更可能表现为一堆窄一些、但真的接进业务流程的小 agent。

2.6 OpenClaw / Manus / Genspark / Comet：高手的工作台

Manus、Genspark、Comet、OpenClaw 这一类，我不想简单放进「谁强谁弱」。

它们更像工作台。有的偏浏览器，有的偏搜索和内容，有的偏本地执行，有的偏全套任务流。

系统	我会怎么理解
Manus	把一个想法推进成网页、文档、应用、PPT 的任务台
Genspark	面向研究、内容、表格、网页、图像的综合工作区
Comet	浏览器里长出来的 AI 助手
OpenClaw 系	本地 agent 操作层，可以接工具、消息入口和 skills

OpenClaw 这类东西最有意思的地方，除了它自己能做什么，还有会用的人能把它搭成什么。

一个普通人看它，可能觉得部署麻烦、权限吓人、成本不清楚。一个高手看它，会想：我能不能把微信、GitHub、Cloudflare、脚本、浏览器、文件系统和自己的工作流接起来，让 agent 变成一个长期在线的执行层？

差距就在这里。

三、到底是谁在真用

3.1 AI-native 小团队

我最想看的其实是这类团队。

重点不在他们人数少。重点是他们已经在按一种新的方式组织工作。

人不再事事亲手做。人的位置变成：

判断方向
拆任务
设边界
看结果
决定要不要发布

agent 做的则是：

查资料
写代码
改文件
跑测试
生成草稿
整理证据
反复执行那些以前需要人一点点磨的活

OpenClaw 3 人团队如果作为样本，我不想写成「他们是不是全球最厉害」。这个没法证明，也容易写成吹捧。

更有价值的说法是：

他们代表了一种 AI-native 小团队的形态。少数人负责判断和系统设计，agent 负责高密度执行。

如果允许我说得冲一点，他们就是我目前看到的「第一用户」候选：会不会喊概念不重要，重要的是他们真的把用量、工作流和收益绑在了一起。这个判断仍然需要更多公开数据验证，但方向我愿意先押在这里。

这件事比「谁最会 vibe」更重要。

3.2 高级程序员和 vibe coder

程序员是最先深度使用 agent 的一群人。

因为代码任务有验收标准。能不能 build，测试过不过，diff 合不合理，线上有没有报错，这些东西都能看。

这类人的工具栈通常不是单一产品：

Cursor / Windsurf 做 IDE 里的即时交互
Codex / Claude Code 做跨文件任务、终端任务、仓库级任务
GitHub Copilot coding agent 接 issue 和 PR 流程
Devin / Replit Agent 承接更完整的软件项目执行
OpenClaw / MCP / 本地脚本补上个人自动化

真正厉害的 vibe coder，重点不在「会让 AI 写代码」。那已经不稀奇了。

厉害的是他知道怎么把需求切成 agent 能完成的块，知道什么时候让它跑，什么时候必须自己停下来判断。

3.3 研究员、分析师、内容创作者

这一类人用 ChatGPT Agent、Deep Research、Genspark、Comet 会很顺。

他们的工作本来就长这样：

找资料
比来源
归纳结构
做表格
写报告
出 PPT
追行业变化

这里不一定需要会代码。只要能问出好问题，能看来源，能判断结论有没有过头，agent 就已经能省下大量体力活。

但这类使用者也最容易踩坑。因为报告看起来像完成了，不代表真的查清楚了。越像成品，越要回头看来源。

3.4 企业业务团队

企业里真正用 agent 的人，未必会说自己在用「类 AGI」。

他们会说：

做了一个客服机器人
做了一个合同审查流程
做了一个销售助理
做了一个 IT 工单 agent
把内部知识库接进 Teams

这些听起来没有那么酷，但更真实。

企业不会一上来就要一个万能助手。它会先把一个流程拆开，把其中一段交给 agent，再用权限、日志、审批和人工复核兜住。

3.5 超级个体

还有一类人很值得看：超级个体。

他们可能不是职业程序员，但会把 agent 用在个人网站、调研文章、课程整理、内容分发、商业线索、小工具、社群运营上。

对他们来说，最重要的是能不能形成一个稳定的个人生产系统，单个模型多强反而只是其中一项。

ChatGPT Agent、Codex、Claude Code、Comet、OpenClaw、Notion、GitHub、Cloudflare、Vercel，这些东西单独看只是工具。串起来以后，才像一个人的生产线。

四、我自己的判断

4.1 差距不在 prompt 了

早期用 AI，大家比的是 prompt。

现在这个差距还在，但没那么决定性了。因为产品越来越会帮你补 prompt，模型也越来越能理解含糊的话。

新的差距更像这几件事：

能力	具体表现
拆任务	把一句模糊目标切成 agent 能执行的小块
定验收	知道什么叫真的完成，什么只是看起来像完成
管权限	知道哪些账号、数据、目录、生产环境不能随便交出去
组工具	把浏览器、代码库、脚本、云平台、文档串起来
看质量	能发现幻觉、偷懒、过度发挥和边界错误

同一个 Codex，同一个 Claude Code，在不同人手里差距很大。工具放大的不是神秘能力，更多是人的判断结构。

4.2 类 AGI 体验会先在可验证的地方出现

我越来越觉得，最强 agent 体验会先出现在代码、表格、数据、报告、企业流程这些地方。

原因很实际：这些地方能验收。

代码能跑测试。表格能算数。报告能查来源。企业流程有权限和日志。

反过来，手机跨 App 操作、长期生活助理、情感陪伴、替你做个人决策，看起来更像 AGI，但落地更慢。这里面全是权限、隐私、责任和平台关系。

所以，今天你真正能感受到「agent 变强了」的地方，往往不是科幻电影里的私人管家，而是代码库、研究工作台和企业流程。

4.3 OpenClaw 这类系统的关键，是人怎么组织它

我会把 OpenClaw 看成一种工作方式，而不是只看成一个工具。

比较理想的链路是：

人提出目标
agent 拆任务
工具开始执行
人看结果
把有效流程沉淀成 skill
下次复用

这条链路如果跑通，三个人确实可能做出过去十几个人的执行量。

但前提也很硬。你要懂任务边界，要能快速验收，要知道哪些权限不能给，要能从失败里沉淀流程。否则 agent 做了很多动作，事情未必真的推进。

这也是我现在看「谁最会用 AI」时最在意的点：谁能把 agent 变成一个可复用、可验收、可收敛的工作系统。

五、没法确认的地方

这篇有几个地方不能写死：

问题	我现在能说到哪里
谁是全球最强通用智能体	没有统一排名，只能按任务类型拆开看
OpenClaw 3 人团队是不是最会用 agent 的团队	没有客观榜单；我会把它当「第一用户候选样本」，不写成已证实事实
Codex、Claude Code、ChatGPT Agent 到底提升多少生产力	官方案例和个人体验都有偏差，需要同一任务集实测
企业 agent 到底用了多深	厂商会披露客户数，但很少披露真实使用深度
手机/眼镜会不会成为最终入口	方向很清楚，节奏还不清楚

六、收口

截至 2026-06-17，我会这样概括：

我的暴论版结论是：截至 2026-06-17，最强的通用工作型智能体是 Codex；第一用户候选，是 OpenClaw 核心 3 人团队。

柔和一点说：Codex 和 Claude Code 是工程师已经用起来的第一梯队。Project Astra 更像未来随身 AI 的样子。Microsoft Copilot Studio 是企业里更现实的 agent 基础设施。OpenClaw、Manus、Genspark、Comet 这些工具，则代表个人和小团队正在自己搭工作台。ChatGPT Agent 有价值，但在这篇文章的标准里，它还不能放在最前面。

最后拉开差距的，不会只是会不会 prompt。

更像是：你能不能把一个模糊目标拆开，交给 agent 去跑，再把结果收回来验收。能做到这一步的人，已经在用一种很早期的类 AGI 了。

很多产品今天看起来热闹，但还停在对话、演示或轻任务层。说它们「都是自嗨」太重了，我会改成：它们还没有穿过「真实工作流」这层门。

以上是我的阶段性行业观察，不是已验证排名，也不是建议。

七、信息来源

官方 / 一手资料

站内交叉阅读