专题调研 · AI 调研

AI Token 用量与花费强度调研

用 0.1B / 0.45B / 10B / 20B tokens/day 四个锚点，把日常重度使用、极重度个人自报、agent-heavy 自动化跑批放到同一条强度尺上：既看成本，也看行为可信度与 vibe coding 能力。

口径：账单 tokens（含 cache-read）·单位统一用 B / M·定价锚点：2026-Q2 三家头部厂商公开 API 价·价格周期：每 12-18 个月约腰斩，使用前请校对

0) 先把口径讲清楚：账单 tokens ≠ 净处理 tokens

2024 年起，Anthropic / OpenAI / Google 都已把 prompt caching 列为头等公民。对反复使用的长前缀（系统提示、仓库结构、文档），第二次起通常按更低的 cache-read 价格收费。因此同一笔 0.1B tokens/day 或 10B tokens/day 在不同口径下含义完全不同：

口径	含义	是否含 cache-read	用途
账单 tokens	厂商按账单计费的总 token 数	含	判断"花了多少钱、跑了多大流量"
净处理 tokens	fresh-input + output，模型真正"新读 + 新写"的量	不含	判断"实际吸收 / 产出多少信息"
unique 内容 tokens	去重后的实际文本量（同一文件多次注入算一份）	不含	判断"信息密度 / 噪声比"

后文所有 0.1B / 0.45B / 10B / 20B 均为账单口径；提到「净处理」或「等效阅读量」时会显式换算。

判断：一旦区分这两本账，多数「骇人听闻的 token 数字」会还原成两类问题：他是真的让 agent 处理了大量新信息，还是把同一批上下文反复送进模型。前者更像能力，后者更像系统形态或浪费。

1) 强度尺：账单口径下的 6 档对数刻度

token 区间跨 5 个数量级，横轴用对数刻度。四个钻石标记分别代表个人重度、个人极重度、10B 自报和 OpenClaw 同档：

轻度

偶尔问问题、查资料

入门

AI 当辅助，主要还是自己写

中度

深度嵌入工作流，每天大段对话

重度

IDE Agent 长会话 + 多窗口并行（含高缓存命中）

极重度

多 agent 协作、跨仓库检索、整日不离手

自动化跑批

后台任务流 / 评测管线主导跑量

10⁵10⁶10⁷10⁸10⁹10¹⁰

0.1B/day 重度个人0.45B/day 极重度个人10B/day 自动化半档20B/day OpenClaw 同档

经验阈值。不同人对「重度」定义差一个量级，仅作粗略锚点。

判断：0.1B-0.45B/day 可以解释为极重度个人 IDE Agent 使用；10B-20B/day 则必须有系统解释。前者像「人用 AI 很深」，后者像「人调度 AI 工厂」。

2) 可信度校验：先问他到底报的是什么

看到别人说 “I used 10B tokens today”，先不要急着惊讶，按这张表拆：

问题	健康答案	可疑答案
token 来源	API dashboard / vendor usage / proxy log	只看产品 UI 的"额度消耗"或道听途说
口径	input / output / cache-read 分开	只说总数，不知道是否含缓存
并发	有 agent 数、任务数、请求数	只有一个聊天窗口，却报 10B/day
产出	PR、测试、issue、报告、数据集可对账	只有"我很努力 vibe 了"
时间线	能解释当天跑了什么批任务	无法说清楚具体行为

判断：10B/day 不是不能发生，但它需要系统解释。没有并发、没有自动化、没有可交付物、没有日志拆分，就更像口径误读或夸张表达。

3) 行为画像：10B/day 的人到底可能在做什么

下方占比是从公开讨论和 agent 工作流反推的「典型口径」，不是行业统计。切换画像看哪个更接近实际：

OpenClaw 公开月量

603B

折算日均

20.1B/day

请求数

7.6M

约合每请求

79.3K

OpenClaw 是公开报道里的高位参照：约 100 个 Codex agents、30 天 603B tokens、7.6M requests。它说明 20B/day 需要 agent 集群级解释，而不是普通聊天解释。

公开可对照的 OpenClaw 案例里，Peter Steinberger / OpenClaw 团队 30 天用了约 603B tokens、7.6M requests、费用约 $1.305M，由约 100 个 Codex 实例产生，3 人团队维护。折算下来平均约 20.1B tokens/day。所以某人一天 10B 不是离谱到不可解释，反而像 OpenClaw 这种 agent-heavy 工作流的半档规模。

OpenClaw agents 会自动 review PR、扫描安全漏洞、去重 GitHub issues、写修复 PR、监控 benchmark 回归、把结果发到 Discord。有些 agent 甚至可以旁听会议，再根据会议内容开工写 feature PR。关键不是一次请求很贵，而是请求量极大：603B / 7.6M requests，平均每次约 79.3K tokens；10B/day 约等于 126,037 次这种请求，也就是每分钟约 88 次。

画像

多 agent 并发读仓库、开 PR、修测试

35%

自动 review / 安全扫描 / issue 去重

20%

benchmark、回归测试、失败重试

20%

长上下文仓库缓存读取

15%

人工交互、调度、总结

10%

判断：如果 10B/day 是真的，他大概率不是「手速快」，而是会组织 AI 系统：会拆任务、开并发、让 agent 读仓库、跑测试、回收结果。这确实是一种 vibe coding 能力。

4) 换算尺：0.1B / 0.45B / 10B / 20B 到底对应多大体量

切换下方「使用画像」选择器（默认 IDE Agent 85/10/5），下表的「净处理」与「等效书目」会随画像变化。

档位	账单 tokens	净处理 tokens	交互 / 请求估算	判断
0.1B/day 重度个人	100M	15M	~12,500 次 8K 交互	人工高频 + 长上下文
0.45B/day 极重度个人	450M	67.5M	~56,250 次 8K 交互	人工高频 + 长上下文
10B/day 自动化半档	10B	1.5B	~125,000 次 80K agent 请求	需要并发 agent / 跑批解释
20B/day OpenClaw 同档	20B	3B	~250,000 次 80K agent 请求	需要并发 agent / 跑批解释

判断：0.1B 和 0.45B 是「重度个人使用」的上沿；10B 和 20B 是「自动化系统吞吐」的下沿。二者要并存，但不能混成同一种行为。

5) 月度花费：cache-aware 定价折算

三段定价：cache-read（命中复用，最便宜）/ fresh-input（新增上下文，标准输入价）/ output（生成，最贵）。下方计算按 Anthropic 公开比例：cache-read 取 input × 10%；OpenAI / Gemini 比例更高（25-50%），同口径会更贵但不改变量级判断。

使用画像缓存命中率越低、输出占比越高，单价越贵

$1,044

$4,698

$104,400

$208,800

经济档

$3,915

$17,618

$391,500

$783,000

主力档

$19,575

$88,088

$1,957,500

$3,915,000

旗舰档

0.1B/day0.45B/day10B/day20B/day

档位	代表模型	cache / input / output（$/M）	混合单价（$/M）	0.1B/day 月费	0.45B/day 月费	10B/day 月费	20B/day 月费
经济档	Haiku 4.5 / GPT-mini / Gemini Flash	0.08 / 0.8 / 4	0.35	$1,044 ≈ ¥7,517	$4,698 ≈ ¥33,826	$104,400 ≈ ¥751,680	$208,800 ≈ ¥1,503,360
主力档	Sonnet 4.6 / GPT-4o / Gemini Pro	0.3 / 3 / 15	1.31	$3,915 ≈ ¥28,188	$17,618 ≈ ¥126,846	$391,500 ≈ ¥2,818,800	$783,000 ≈ ¥5,637,600
旗舰档	Opus 4.7 / o1 / Gemini Ultra	1.5 / 15 / 75	6.53	$19,575 ≈ ¥140,940	$88,088 ≈ ¥634,230	$1,957,500 ≈ ¥14,094,000	$3,915,000 ≈ ¥28,188,000

判断：0.1B-0.45B/day 在订阅产品里仍可能是个人重度使用；10B-20B/day 如果按 API 真实付费，已经是公司级账单。若个人声称长期如此但实际只付 $100-$400/month 订阅，那他说的更可能是平台内部使用量、缓存折算或产品方吸收后的额度。

6) 市场口径：按 token 计费 vs 订阅制

2025 年起头部 IDE Agent 类产品大多提供高位订阅档，月费 $100-$400 级别，对个人重度用户取消了「用得越多花得越多」的弹性账单。0.1B-0.45B/day 的个人重度样本，真实支出可能落在这一档；10B-20B/day 若长期稳定，则更像平台池、企业池或 agent-heavy 自动化系统。

计费口径	典型档位	对个人重度的实际支出	何时仍按 metered 算账
按量（metered API）	API key 直连	由 token 量与画像决定，可见第 5 节	需要审计、自定义路由、批处理、企业部署
订阅（flat-rate）	Max / Pro / Ultra 级别	月费 $100-$400 锁死	触发硬性速率限制、需要更高并发或 SLA
企业池（席位 + 池子）	团队 / 组织计划	按席位 + 用量阶梯	部门级集中采购

口径选择本身就是优化抓手：如果使用画像稳定在 IDE Agent + 高缓存命中、不需要外部 API 集成，订阅档通常显著优于按量。

判断：引用任何 token 数字前都要先问「是 API 账单，还是订阅产品的使用量」。0.45B/day 和 10B/day 在产品 UI 里可能只是两个数字，但在 API 账单里已经是完全不同的组织规模。

7) vibe 能力：token 多为什么仍然有意义

信号	说明	为什么能反映 vibe 能力
任务拆分	能把一个目标拆成多个 agent 可执行子任务	会调度模型，而不是只会聊天
上下文组织	能让模型持续拿到相关文件、日志、约束	长上下文使用质量决定结果上限
快速验收	能读 diff、跑测试、筛掉坏结果	token 只有经过验收才变成生产力
并发管理	能让多个 agent 同时探索不同路径	高 token 才可能转化为高吞吐
复盘沉淀	能把会话、PR、经验写入记忆或规范	下一轮 token 效率会提高

判断：token 用量不等于能力，但在 agent 时代，持续高质量消耗 token 往往说明一个人已经把 AI 当成执行层，而不只是问答工具。

8) 浪费信号：什么时候 10B/day 只是空转

信号	健康	空转迹象
会话留存	能引用、能复用、被归档	一次性扔掉、没人回看
输出收口	有人验收、能进生产	生成完没人看 / 直接堆磁盘
迭代次数	收敛到结果（≤ 5 轮）	反复试错（> 10 轮还没拿到目标）
上下文密度	指令明确、检索精准	塞海量文档"让 AI 自己找"
模型分层	简单任务用小模型	一律旗舰、爽就完事

判断：判断一个高 token 用户强不强，不看 token 本身，看单位 token 产出：每 1B tokens 带来多少 merged PR、可用报告、自动化脚本、决策结论或可复用知识。

9) 月度快照（持续累积、只增不删）

月份	日均账单 tokens	日均净处理（估）	主用模型 / 工具	计费口径	本月最大优化点
示例行 A	~0.45B	~0.0675B	主力档 IDE Agent	订阅	收紧 .ignore，缓存命中率提升至 85%
示例行 B	~10B	~1.5B	主力档 IDE Agent + agent runner	订阅 / 平台池	收紧上下文、限制失败重试、记录可交付物
填新行	——	——	——	——	——

判断：模板留五列就够：账单 tokens、净处理（估）、主用模型、计费口径、本月最大优化点。每月写一行，半年回看就能看出强度爬升曲线与优化效果。

来源与校准入口

返回多维页面列表相关：大模型增效指令 Skill