米兰milan(中国)体育官方网站

你的位置：米兰milan(中国)体育官方网站 > 米兰体育 > 米兰体育官网东说念主民念念念DeepSeek

29

2026
03

米兰体育官网东说念主民念念念DeepSeek

发布日期：2026-03-29 07:14 点击次数：200

米兰体育官网东说念主民念念念DeepSeek

撰文丨苏扬

最近对于Token的霸术挺奇幻的。

一又友圈遍地能看到Token汉文翻译的霸术——有"词元"、"智元"等等，以致有"慧根"之类的搞笑版块。

Token不是一个新成见，大模子落地第一天起，它便与神经网罗共生，但直到OpenClaw（俗称"龙虾"）在用户群大界限扩散，各类Agent应用运转把Token带入了公众视线。

我认为其中有两个环节问题：它的虚耗量太大了，价钱也太贵了。

铭记OpenAI发布GPT-5.4的时候，有用户响应测试一句"你好"就消

耗掉了80好意思元的Token，那时不少东说念主王人说这个使用量太夸张，但跟着小龙虾大界限在用户群扩散，一个任务烧完千万级Token成为常态。

与之相对的是，英伟达CEO黄仁勋在GTC2026大会上以及之后的好多所在，王人在强调工程师要无数的使用Token，以致将Token纳入到薪酬激励机制。

一次对话要领，黄仁勋说："如果年薪50万好意思元的工程师，连25万好意思元的Token王人没用掉，我会终点震悚。"

问题是，荒诞的烧Token一定能解决问题吗，有若干Token是有用的，什么样的插足产出比是合理的？

结合刚刚外媒的音讯，有OpenAI措施员一周烧掉了2100亿Token，非常于33个维基百科，但这么的虚耗量最终带来了什么？我发了一个一又友圈，说这么重度使用能升P10吗，有好友就地批驳，"能帮卖Token的升P10。"

很显然，这场荒诞烧Token的畅通，能带来若干后果是存疑的，谁是赚钱者则是深信的。

黄仁勋将英伟达形容为"Token之王"，领有天下起原进的"Token制造机"，但如果拚命饱读动这件事，以致暗意无谓Token就会落伍，那么不错说：一方面，黄仁勋念念澈底编削AI期间企业"遵循侦察"的逻辑，另一方面，他也蜿蜒制造出了Token心焦。

Token太贵了

不久前，我讨教了周鸿祎"Token太贵"这个问题，他说："民众以为Token贵可能存在些污蔑，因为大模子后端是不错生动确立的。"

在他的和会中，用户不错自主采用模子规章资本。"平方聊天对话的资本其实很低。确凿虚耗Token的是复杂任务，比如帮你生成视频、创作短剧或写演义这类调用场景。"

我铭记猎豹移动CEO傅盛在一条视频中说，我方通过一些使用技能把当先日均几百好意思元的Token用度，优化到咫尺日均10多好意思元，30天即是2100元，年费是25200元。

问题来了：有若干用户承担得起日均10好意思元的资本？

对比咫尺中国互联网上的商用to C类软件，比如剪映，高端会员年费也唯有600元傍边，文娱相关的会员用度大约在300元傍边，根柢找不到一款年费杰出25000元的消费级软件。

"绝大部分东说念主一天10好意思金，仍然不会领受，这里会过滤掉大片的非付用度户。"我对傅盛说，他莫得否定我的判断。

这些天，我也在尝试多样类型的小龙虾产物，要构兵到的用度远不啻Token。

举个例子，如果用户对生图有需求，就需要荒谬的生图模子API；如果要监控动态，也需要接入付费的搜索API，这些潜在的用度会缓缓的劝退绝大多数用户。固然可能有一些开源变通的表情降本，但开源名目就蜿蜒躲避着安全风险。

3月13日，那时腾讯科技"虾聊"系列直播的第一期（鹅厂工程师讲透“龙虾”真相：“笨”不是“虾”的错），玄武实验室的嘉宾Lambda共享过一个数据——他我方平均每个月"养虾"的用度在千元以上。

不管是参照消费级器具年费，照旧行业"养虾户"的响应，基于Agent的Token虚耗说一句"Token太贵了"，是站得住脚的。

存储瓶颈与遵循黑洞

Token苟简和会即是大言语模子处理信息的基本单元——用户输入提醒词，模子输出谜底，每一个字、每一个标点，王人司帐入Token的虚耗量，推行上照旧算力资本。

已往民众算盘算力总领有资本，想法有好多，包括规划能效的Flops/W，核算均值的资本/Flop

s等等，本年的"Token经济学"中，Token/W缓缓成为共鸣。

"咱们的每一个Token资本王人是天下最低的。"黄仁勋在GTC上说。

但不管有多低廉，不管是哪一种算计单元，它王人是插足资本量化，触及到研发资本、硬件资本，雅博体育app中国官网入口部署资本，能耗资本，运营资本等。换句话说，降本也王人是围绕上述要领伸开。

对于Token降正本说，一个不好的音讯是内存价钱在疯涨。

以HBM内存为例，它是撑握大模子检修和推理的环节器件，同期，推理数据量的暴涨也激发出了存储需求的同步高潮。2026年第一季度，DRAM的价钱环比高潮杰出50%，NAND价钱环比最高潮幅达到150%。

黄仁勋、苏姿丰王人如故喊出了"HBM有若干要若干"，三星、好意思光这些存储原厂，如故对外裸露头部客户的政策长约如故签到了5年。

《内存暴涨100天，千元机被动示寂》一文提到过，消费级市集，千元机库存可能王人要停产了，但推行上受这个问题的影响，云厂商咫尺也处于加价的煎熬之中。咫尺行业最乐不雅的展望是2028年存储价钱回落，悲不雅少许要到2030年。

存储价钱一天不回落，Token降价就枯竭一个环节的外部杠杆。

模子材干的擢升也不错视为降价的另一个杠杆。"咫尺一些8B的小模子，材干越来越面对全量大模子。"一位学术界策动员说。

在这方面，面壁智能合并清华团队在《Nature》子刊上提议了Densing Law的成见，强调大模子的材干密度随时候指数增长，约每3.5个月翻一倍，同等性能所需参数目每3.5个月减半。

一位国产AI芯片从业者也强调模子材干好、界限小，进而能鼓吹资本镌汰。"你看国内开源大模子token价钱，基本王人跟模子界限正相关。"

多位国产算力从业者清楚，擢升MFU也会带来资本压缩的空间，此外也还包括架构、显存等多方面的推理优化。

"MFU跟模子本人关系不太大，主如若算子和调养策略关联。"另一位国产存算一体芯片从业者说，"咫尺主流大模子的推理MFU均值在30%傍边，优化后可杰出50%，料到能省出50%的资本。"

也即是说，行业并莫得榨干GPU的性能——花了100%的GPU钱，咫尺只用了不到三分之一的算力。

不外，MFU擢升固然不错带来单Token资本着落，但会不会传导到C端，取决于大模子提供方的买卖考量，如果用来打价钱战，米兰(中国)官方网站这毫无疑问是一个有用的杠杆。

再来一次价钱战

中国大模子的价钱战，不是莫得前例。

2024年，国内厂商就也曾爆发过一轮利害的价钱战。那时恰逢DeepSeek-V2上线，每百万Token输入1元、输出2元，彼时价钱非常于GPT-4-Turbo的百分之一。

DeepSeek那时的降价环节就在于推理优化——MoE疏淡架构大幅镌汰了算计量，MLA多头潜在重见地把KV缓存压缩90%以上。

DeepSeek开启这轮降价之后，就地阿里、字节、等等先后下场伸开价钱战博弈，一度出现了"Token免费"的征象。

王小川当年在一次调换会上谈价钱战，他认为与此前团购、网约车大战有推行不同，"此次价钱战是凯旋分娩力的供给，是B端市集的价钱战。"

在那时，王小川也强调即使短期内亏蚀，（大厂）也可能在一年后完了盈利。

"在推理遵循擢升的情况下，通过补贴，用户有了非常显然的增长，"一位参与过上一轮价钱战的大模子公司里面东说念主士说，"简略花了几个亿吧。"

不外，这一轮Token的虚耗，B端和C端需求同期爆发，反而和团购、网约车大战一样，具备编削分娩关系的条目，但市集却通晓出了特等的千里默。

前述参与价钱战的大模子里面东说念主士认为，在模子的特定材干教诲，有了褂讪用户来源的情况下，民众无意有能源再下场去打价钱战。

"Token虚耗不像2024年那种界限了，这个情况下，为了虾打价钱战，存量用户的ARR收入也会被动失血，"前述国产AI芯片从业者说，"没必要，价钱战带来的增量还不深信，先把存量自砍了，这账不好算。"

Artificial Analysis追踪的大模子API价钱

凭证Artificial Analysis的追踪数据，国产模子的API单价如故富足低廉了，仅仅这个低廉进程对于Agent的巨量虚耗来说，还远远不够。

如前边所说，受内存和存储的硬件资本冲击，国内云厂商咫尺边对的是加价的结巴，短期不太有降价的可能性。

"咫尺是前两年价钱战的握续，国内厂商的价钱比北好意思有显然的上风。仅仅民众明晰抢用户是个握久战，不是一两次价钱战能惩处的。"前述国产存算一体芯片从业者补充说念。

把模子"焊"在芯片上

为了解决Token荒诞虚耗带来的资本问题，一部分用户运转尝试欺诈土产货部署模子。

到咫尺为止，如故有不少用户基于Mac Mini为"小龙虾"确立土产货模子，只不外这种解决决策，在短时候内会不断地推高Token使用资本，同期土产货部署本人就存在门槛，且开源模子的材干无意能够安妥用户的需求。

针对那些初学级用户，也有厂商尝试推出EdgeClaw硬件，而况在硬件生意之上，套上一层安全的故事，这其实是一个值得尝试的标的，仅仅在内存加价大环境下，显得有些时运不济。

此前，一位Mini主机创业者说，加价对行业王人有冲击。

"以前用户是以为'好贵'，咫尺凯旋根柢不看了，他们并不在乎你的内存和硬盘有多大。"该创业者说。

与此同期，一些品牌也在电商平台推出准系统产物（无内存、存储），最廉价钱在2000元以内，它们固然莫得"安全故事"，却是Edgeclaw这种创业型名目第一个要跳跃的难关。

对"小龙虾"端侧AI硬件来说，最大的挑战照旧Mac Mini，苹果

的供应链话语权和毛利率不错撑握Mac Mini超高性价比的订价，创业团队在这里很难讲故事。

还铭记2025岁首期，DeepSeek爆火时的"一体机"吗，你看今天行业里面还有它们的故事吗？

除了一体机这种集成硬件决策，也有创业名目尝试从更底层的芯片上去作念改进。

2月份，Taalas团队推出了一款全新的芯片HC1，该芯片基于TSMC N6制程，die size 815mm²，晶体管密度仅53B，单芯片可运行Llama 3.1 8B模子，最中枢的是单用户TPS（Token/s）输出16960/s，数据号称爆表，环节就在于HC1的遐想。

Taalas团队在这款芯片上，用Mask ROM将Llama 3.1 8B模子权重硬编码固化在硅片上，芯片金属层连线非常于神经元畅通，非常于把模子"焊在"芯片上，同期完了算计与存储物理和会，澈底抛弃HBM/DRAM数据搬运，突破了内存墙休止。

固然TPS性能凸起，它的短板也一样来自于模子"焊在"芯片上这个特质，这意味着只可跑固定版块的固定模子，权重不可改、结构不可动，念念换模子就要再行流片，你也不错和会为专芯专用。

写在终末

一切的霸术王人基于Token使用资本——贵的不是单价，而是重度任务对Token使用量的倍数放大。

我也曾尝试过用小龙虾来生成指定时候戳的gif，在和一位同业调换的经由中，他说："你这里面的gif图，咱们共事作念，半分钟作念一张，手工。"

尽管这个案例不是很典型，但如果作念几张gif就要花掉几元钱，显然不具备经济性。

接入DeepSeek API制作gif的虚耗情况

要编削这少许，要么领有更低廉的Token订价，要么Token虚耗最小化，这依赖模子层面的优化，也取决于推理硬件层面的改进。

但不论奈何，在Token使用的总用度打不下来，且插足的有用产出不解确的情况下，荒诞安利Token虚耗，以致强调与绩效挂钩，说是制造Token心焦，制造AI心焦也不为过。

再往前看，老黄还命令科技行业首长审慎发声，幸免激发公众对东说念主工智能工夫的非感性震悚。这就好比跟全行业说：别打压东说念主工智能制造震悚了，你们王人要把Token烧起来。

可问题是，谁来解决价钱问题呢，会是迟迟莫得到来的DeepSeek V4吗？

我铭记2017年的时候，有一篇刷屏著作叫《东说念主民念念念周鸿祎》，咫尺东说念主民应该很念念念Token价钱战，念念念DeepSeek。

至少对于"虾民"来说米兰体育官网，简略率如斯。

开云体育中国官方网站

推荐资讯

热点资讯

29

202603

米兰体育官网 东说念主民念念念DeepSeek

2026
03

米兰体育官网东说念主民念念念DeepSeek