专题调研 · AI 调研
AI Token 用量与花费强度调研
用 0.1B / 0.45B / 10B / 20B tokens/day 四个锚点,把日常重度使用、极重度个人自报、agent-heavy 自动化跑批放到同一条强度尺上:既看成本,也看行为可信度与 vibe coding 能力。
0) 先把口径讲清楚:账单 tokens ≠ 净处理 tokens
2024 年起,Anthropic / OpenAI / Google 都已把 prompt caching 列为头等公民。对反复使用的长前缀(系统提示、仓库结构、文档),第二次起通常按更低的 cache-read 价格收费。因此同一笔 0.1B tokens/day 或 10B tokens/day 在不同口径下含义完全不同:
| 口径 | 含义 | 是否含 cache-read | 用途 |
|---|---|---|---|
| 账单 tokens | 厂商按账单计费的总 token 数 | 含 | 判断"花了多少钱、跑了多大流量" |
| 净处理 tokens | fresh-input + output,模型真正"新读 + 新写"的量 | 不含 | 判断"实际吸收 / 产出多少信息" |
| unique 内容 tokens | 去重后的实际文本量(同一文件多次注入算一份) | 不含 | 判断"信息密度 / 噪声比" |
后文所有 0.1B / 0.45B / 10B / 20B 均为账单口径;提到「净处理」或「等效阅读量」时会显式换算。
判断:一旦区分这两本账,多数「骇人听闻的 token 数字」会还原成两类问题:他是真的让 agent 处理了大量新信息,还是把同一批上下文反复送进模型。前者更像能力,后者更像系统形态或浪费。
1) 强度尺:账单口径下的 6 档对数刻度
token 区间跨 5 个数量级,横轴用对数刻度。四个钻石标记分别代表个人重度、个人极重度、10B 自报和 OpenClaw 同档:
经验阈值。不同人对「重度」定义差一个量级,仅作粗略锚点。
判断:0.1B-0.45B/day 可以解释为极重度个人 IDE Agent 使用;10B-20B/day 则必须有系统解释。前者像「人用 AI 很深」,后者像「人调度 AI 工厂」。
2) 可信度校验:先问他到底报的是什么
看到别人说 “I used 10B tokens today”,先不要急着惊讶,按这张表拆:
| 问题 | 健康答案 | 可疑答案 |
|---|---|---|
| token 来源 | API dashboard / vendor usage / proxy log | 只看产品 UI 的"额度消耗"或道听途说 |
| 口径 | input / output / cache-read 分开 | 只说总数,不知道是否含缓存 |
| 并发 | 有 agent 数、任务数、请求数 | 只有一个聊天窗口,却报 10B/day |
| 产出 | PR、测试、issue、报告、数据集可对账 | 只有"我很努力 vibe 了" |
| 时间线 | 能解释当天跑了什么批任务 | 无法说清楚具体行为 |
判断:10B/day 不是不能发生,但它需要系统解释。没有并发、没有自动化、没有可交付物、没有日志拆分,就更像口径误读或夸张表达。
3) 行为画像:10B/day 的人到底可能在做什么
下方占比是从公开讨论和 agent 工作流反推的「典型口径」,不是行业统计。切换画像看哪个更接近实际:
OpenClaw 是公开报道里的高位参照:约 100 个 Codex agents、30 天 603B tokens、7.6M requests。它说明 20B/day 需要 agent 集群级解释,而不是普通聊天解释。
公开可对照的 OpenClaw 案例里,Peter Steinberger / OpenClaw 团队 30 天用了约 603B tokens、7.6M requests、费用约 $1.305M,由约 100 个 Codex 实例产生,3 人团队维护。折算下来平均约 20.1B tokens/day。所以某人一天 10B 不是离谱到不可解释,反而像 OpenClaw 这种 agent-heavy 工作流的半档规模。
OpenClaw agents 会自动 review PR、扫描安全漏洞、去重 GitHub issues、写修复 PR、监控 benchmark 回归、把结果发到 Discord。有些 agent 甚至可以旁听会议,再根据会议内容开工写 feature PR。关键不是一次请求很贵,而是请求量极大:603B / 7.6M requests,平均每次约 79.3K tokens;10B/day 约等于 126,037 次这种请求,也就是每分钟约 88 次。
判断:如果 10B/day 是真的,他大概率不是「手速快」,而是会组织 AI 系统:会拆任务、开并发、让 agent 读仓库、跑测试、回收结果。这确实是一种 vibe coding 能力。
4) 换算尺:0.1B / 0.45B / 10B / 20B 到底对应多大体量
切换下方「使用画像」选择器(默认 IDE Agent 85/10/5),下表的「净处理」与「等效书目」会随画像变化。
| 档位 | 账单 tokens | 净处理 tokens | 交互 / 请求估算 | 判断 |
|---|---|---|---|---|
| 0.1B/day 重度个人 | 100M | 15M | ~12,500 次 8K 交互 | 人工高频 + 长上下文 |
| 0.45B/day 极重度个人 | 450M | 67.5M | ~56,250 次 8K 交互 | 人工高频 + 长上下文 |
| 10B/day 自动化半档 | 10B | 1.5B | ~125,000 次 80K agent 请求 | 需要并发 agent / 跑批解释 |
| 20B/day OpenClaw 同档 | 20B | 3B | ~250,000 次 80K agent 请求 | 需要并发 agent / 跑批解释 |
判断:0.1B 和 0.45B 是「重度个人使用」的上沿;10B 和 20B 是「自动化系统吞吐」的下沿。二者要并存,但不能混成同一种行为。
5) 月度花费:cache-aware 定价折算
三段定价:cache-read(命中复用,最便宜)/ fresh-input(新增上下文,标准输入价)/ output(生成,最贵)。下方计算按 Anthropic 公开比例:cache-read 取 input × 10%;OpenAI / Gemini 比例更高(25-50%),同口径会更贵但不改变量级判断。
| 档位 | 代表模型 | cache / input / output($/M) | 混合单价($/M) | 0.1B/day 月费 | 0.45B/day 月费 | 10B/day 月费 | 20B/day 月费 |
|---|---|---|---|---|---|---|---|
| 经济档 | Haiku 4.5 / GPT-mini / Gemini Flash | 0.08 / 0.8 / 4 | 0.35 | $1,044 ≈ ¥7,517 | $4,698 ≈ ¥33,826 | $104,400 ≈ ¥751,680 | $208,800 ≈ ¥1,503,360 |
| 主力档 | Sonnet 4.6 / GPT-4o / Gemini Pro | 0.3 / 3 / 15 | 1.31 | $3,915 ≈ ¥28,188 | $17,618 ≈ ¥126,846 | $391,500 ≈ ¥2,818,800 | $783,000 ≈ ¥5,637,600 |
| 旗舰档 | Opus 4.7 / o1 / Gemini Ultra | 1.5 / 15 / 75 | 6.53 | $19,575 ≈ ¥140,940 | $88,088 ≈ ¥634,230 | $1,957,500 ≈ ¥14,094,000 | $3,915,000 ≈ ¥28,188,000 |
判断:0.1B-0.45B/day 在订阅产品里仍可能是个人重度使用;10B-20B/day 如果按 API 真实付费,已经是公司级账单。若个人声称长期如此但实际只付 $100-$400/month 订阅,那他说的更可能是平台内部使用量、缓存折算或产品方吸收后的额度。
6) 市场口径:按 token 计费 vs 订阅制
2025 年起头部 IDE Agent 类产品大多提供高位订阅档,月费 $100-$400 级别,对个人重度用户取消了「用得越多花得越多」的弹性账单。0.1B-0.45B/day 的个人重度样本,真实支出可能落在这一档;10B-20B/day 若长期稳定,则更像平台池、企业池或 agent-heavy 自动化系统。
| 计费口径 | 典型档位 | 对个人重度的实际支出 | 何时仍按 metered 算账 |
|---|---|---|---|
| 按量(metered API) | API key 直连 | 由 token 量与画像决定,可见第 5 节 | 需要审计、自定义路由、批处理、企业部署 |
| 订阅(flat-rate) | Max / Pro / Ultra 级别 | 月费 $100-$400 锁死 | 触发硬性速率限制、需要更高并发或 SLA |
| 企业池(席位 + 池子) | 团队 / 组织计划 | 按席位 + 用量阶梯 | 部门级集中采购 |
口径选择本身就是优化抓手:如果使用画像稳定在 IDE Agent + 高缓存命中、不需要外部 API 集成,订阅档通常显著优于按量。
判断:引用任何 token 数字前都要先问「是 API 账单,还是订阅产品的使用量」。0.45B/day 和 10B/day 在产品 UI 里可能只是两个数字,但在 API 账单里已经是完全不同的组织规模。
7) vibe 能力:token 多为什么仍然有意义
| 信号 | 说明 | 为什么能反映 vibe 能力 |
|---|---|---|
| 任务拆分 | 能把一个目标拆成多个 agent 可执行子任务 | 会调度模型,而不是只会聊天 |
| 上下文组织 | 能让模型持续拿到相关文件、日志、约束 | 长上下文使用质量决定结果上限 |
| 快速验收 | 能读 diff、跑测试、筛掉坏结果 | token 只有经过验收才变成生产力 |
| 并发管理 | 能让多个 agent 同时探索不同路径 | 高 token 才可能转化为高吞吐 |
| 复盘沉淀 | 能把会话、PR、经验写入记忆或规范 | 下一轮 token 效率会提高 |
判断:token 用量不等于能力,但在 agent 时代,持续高质量消耗 token 往往说明一个人已经把 AI 当成执行层,而不只是问答工具。
8) 浪费信号:什么时候 10B/day 只是空转
| 信号 | 健康 | 空转迹象 |
|---|---|---|
| 会话留存 | 能引用、能复用、被归档 | 一次性扔掉、没人回看 |
| 输出收口 | 有人验收、能进生产 | 生成完没人看 / 直接堆磁盘 |
| 迭代次数 | 收敛到结果(≤ 5 轮) | 反复试错(> 10 轮还没拿到目标) |
| 上下文密度 | 指令明确、检索精准 | 塞海量文档"让 AI 自己找" |
| 模型分层 | 简单任务用小模型 | 一律旗舰、爽就完事 |
判断:判断一个高 token 用户强不强,不看 token 本身,看单位 token 产出:每 1B tokens 带来多少 merged PR、可用报告、自动化脚本、决策结论或可复用知识。
9) 月度快照(持续累积、只增不删)
| 月份 | 日均账单 tokens | 日均净处理(估) | 主用模型 / 工具 | 计费口径 | 本月最大优化点 |
|---|---|---|---|---|---|
| 示例行 A | ~0.45B | ~0.0675B | 主力档 IDE Agent | 订阅 | 收紧 .ignore,缓存命中率提升至 85% |
| 示例行 B | ~10B | ~1.5B | 主力档 IDE Agent + agent runner | 订阅 / 平台池 | 收紧上下文、限制失败重试、记录可交付物 |
| 填新行 | —— | —— | —— | —— | —— |
判断:模板留五列就够:账单 tokens、净处理(估)、主用模型、计费口径、本月最大优化点。每月写一行,半年回看就能看出强度爬升曲线与优化效果。
来源与校准入口
- · Tom's Hardware: OpenClaw 30 天约 603B tokens / $1.3M API bill
- · Business Insider: Peter Steinberger / OpenClaw token bill
- · OpenAI API Pricing(含 cached input 折扣比例)
- · Anthropic API Pricing(cache-read / cache-write 公开报价)
- · Anthropic Prompt Caching 文档
- · OpenAI Prompt Caching 文档
- · Gemini API Pricing(含 context caching)
- · DeepSeek Pricing