AI token消耗是固定的吗?看完这篇再说

上周跟一个做技术的朋友聊天,他跟我吐槽了一件事,我听完觉得特别有意思。

他说自己用某个AI coding agent修一个不算复杂的bug,结果跑了一下午,token账单出来一看,好家伙,顶得上他平时一周的用量。关键是,bug还没完全修好。

这让我开始想一个问题——AI的token消耗,到底能不能预估?

AI token消耗是固定的吗?看完这篇再说

一、同一道题,跑四次价格能差一倍

密歇根大学和斯坦福的几个研究者做过一个挺扎实的实验。他们用OpenHands这个coding agent框架,拿了8个主流大模型,在SWE-bench Verified数据集上跑了完整的任务轨迹。

结论很直接:token消耗极其不稳定

一个agentic编码任务平均消耗约417万token,而一次普通的代码推理只要1200 token左右。差了将近3500倍。

这还不算完。更离谱的是,同样的问题、同样的模型,跑四次,最贵的那次可以是最便宜那次的两倍左右。你根本没法笃定它这次会花多少,就像掷骰子。


二、真正烧钱的是"听",不是"说"

很多人直觉上觉得,AI的成本应该在它生成的内容上——毕竟输出才是它"干活"的部分嘛。

但数据完全不这么讲。

在agentic代码任务里,输入和输出的token比例是154:1。也就是说,AI每说一个字,要先读154个字。

为什么会这样?因为现在的coding agent普遍用一种特别"笨"的策略:把所有历史对话、代码查询结果、文件内容,全部堆进上下文里,每一轮原封不动重新喂给模型。任务越复杂,这个雪球滚得越大。

上下文缓存确实能省一点,但杯水车薪。输入端依然是吞金的主力。

AI token消耗是固定的吗?看完这篇再说

三、花得多 ≠ 做得好

按理说,你花那么多token,效果总该好一点吧?

研究者的发现挺打脸的:不是

他们把同一问题的四次运行按花费从低到高分成四档,看每档的准确率。结果发现,准确率在较低花费的时候就到顶了,后面两档不仅没涨,反而往下掉。

为什么会这样?观察下来发现,贵的那几次,反复查看和修改同一个文件的次数特别多。说白了,它不是在深入思考,而是在原地打转,把上下文越堆越长,但没什么实质性进展。

花钱多不等于想得多,有时候只是想偏了。


四、不同模型,效率天差地别

同样的框架,同样的500个任务,不同模型的表现在token效率上判若两人。

GPT-5和GPT-5.2能以相对低的成本拿到不错的准确率。而Kimi-K2消耗很大,准确率却没跟上。在同样的任务上,Kimi-K2和Claude Sonnet-4.5平均比GPT-5多消耗约150万token。

而且这种差异不是任务难度造成的——研究者把所有模型都成功和都失败的任务单独拎出来看,消耗排名几乎没变。

还有一个细节很有意思:所有模型在失败题目上的消耗都比成功题目高,但超支的幅度差别巨大。GPT-5只是温和上升,Kimi-K2直接暴涨近200万token。它好像不太知道什么时候该放弃,一头扎进去拉都拉不回来。


五、提前报价?目前想多了

那在agent开始干活之前,能不能提前估算一下要花多少?

研究者试了两个方向。

第一个是靠人类判断。结果人类专家标注的任务难度和实际token消耗的相关性只有0.32。人类觉得"难"的东西,和AI觉得"贵"的东西,基本是两码事。

第二个是让agent自己预测自己。这个稍微好一点,相关性最高到0.39,但精度依然有限。而且几乎所有模型都系统性地低估了自己的消耗——它们总是过于乐观,压根没料到上下文会膨胀成什么样。

AI token消耗是固定的吗?看完这篇再说

写在最后

总结一下:AI的token消耗高度不稳定、难以预测,而且跟任务完成质量之间没有正比关系。不同模型在token效率上的差距,比很多人想象的要大得多。

所以选AI工具的时候,别光看准确率,token效率同样是核心指标

而对于开发者来说,怎么设计更高效的agent、怎么做开销预测和管理,是接下来绕不开的事。说到底,一个能预估代价、心里有预算的agent,才算真正成熟。

本文所引用的部分图文来自网络,版权归属版权方所有。本文基于合理使用原则少量引用,仅用于对数字营销的分析,非商业宣传目的。 若版权方认为该引用损害其权益,请通过极致了数据微信: JZL3122 联系我方,我们将立即配合处理。发布者:jzl,转载请注明出处:https://www.jizhil.com/rsdata/13988.html

(0)
jzljzl
上一篇 2天前
下一篇 22小时前

相关推荐

联系我们

18658854422

微信号:JZL99876

邮件:474804@qq.com

工作时间:周一至周五,9:00-18:00,节假日休息