
在最近的模子混战中,不仅仅中国厂商们在卷,Anthropic 也在半个月一语气发布了两款模子。而其中,最近发布的 Sonnet 4.6 有些特殊,它不是旗舰,却在多个维度追平甚而迥殊了旗舰。看起来它用 Opus 1/3 的价钱,就追上了它 99% 的性能。
在这个各家模子齐要干掉 Opus 的时刻,它我方用性价比款的 Sonnet "干掉" Opus,给诸君演示了一下,什么才是最卷的模子。

况兼,这款模子终点值得关切的地方是,它让 AI 操作电脑这件事第一次接近了"真的能用"的临界点。而无意在吞并个月,一个叫 OpenClaw 的开源技俩用 17 万 GitHub 星标解释了一件事,东说念主手一个的,能替我方干活的 AI Agent,可能成为一个新的趋势。Sonnet 4.6 是模子,OpenClaw 是框架,但它们指向吞并个场所。
低廉的再一次打赢了贵的
在 Anthropic 的居品线中,Opus 是最强最贵的旗舰,Sonnet 是均衡性能和老本的中端款,Haiku 是最快最低廉的轻量款。永远以来,Sonnet 的变装是"性价比之选",干不了最难的活但胜在低廉。Sonnet 4.6 突破了这个样式。
编码方面,它在 SWE-bench Verified 上得分 79.6%,靠拢 Opus 4.6 的 80.8%。Claude Code 的里面测试中,用户 70% 的时刻更偏好 Sonnet 4.6(对比 Sonnet 4.5),甚而有 59% 的时刻比前年 11 月发布的旗舰 Opus 4.5 更受迎接。用户响应聚会在几个方面,"更少过度工程""更少偷懒""指示战胜彰着更好",以及更少出现"明明没干完却说干收场"的情况。
办公任务是更大的惊喜。在 GDPval-AA 这个筹议真实办公场景的评测中,Sonnet 4.6 拿到 1633 Elo,平直迥殊了 Opus 4.6 的 1606。低廉的在本质责任场景中打赢了贵的。肖似的事正在行业里反复发生,Google 的 Gemini 3 Flash 也在靠拢 Pro 的推崇,DeepSeek 用远低于好意思国公司的老本锻真金不怕火出竞争力相配的模子。"低端逆袭高端"仍是不再是新闻,而是 2026 年 AI 行业的结构性趋势。
不外孤独 AI 评测机构 Artificial Analysis 细心到了一个有利旨真谛的细节,Sonnet 4.6 在 GDPval-AA 上使用的 token 数目是 Sonnet 4.5 的约 4.5 倍。AI 媒体 Latent Space 据此指出,某些任务的总老本可能比 Opus 还高。这和价钱表上的数字讲的是两个故事。

软件工程师、AI 技能博主 Joe Njenga 在 Medium 上第一时刻作念了测试,他的感受是,"发布才几天,但 Sonnet 4.6 仍是嗅觉比 Opus 更好用了。" Cosmic 平台作念了一个罢了实验,用悉数调换的一句话教唆词让 4.5 和 4.6 各生成一个博客应用,论断是 4.6 在遐想回味和代码架构上有质的擢升,"需要更少的手把手指示"。编程用具 Kilo Code 平直把 Sonnet 4.6 设为默许保举模子。虽然也有负面声息,发布本日就有效户申诉了函数名幻觉的问题。
价钱跟上一代 Sonnet 4.5 统谐和样,每百万输入 token 3 好意思元,输出 token 15 好意思元。同期它成了 Free 和 Pro 用户的默许模子,免用度户还新增了文献创建、skills 等功能。但正如上头提到的,"雷同的钱买到更强的模子"不等于"用 AI 更低廉了"。Extended thinking 的 token 按输出价钱计费,迥殊 200K 的长凹凸文有额外溢价,而 Agent 场景下动辄数以万计次用具调用,本质使用老本可能反而在增多。
16 个月,Computer Use 从玩物变用具
Sonnet 4.6 还有一个值得单独拿出来说的迥殊,即是 Computer Use,也即是 AI 操作电脑的智商。
2024 年 10 月,Anthropic 是第一个推出通用遐想机操作 AI 的公司。其时他们我方齐承认这个功能"还很实验性,有时稚子且容易出错",发布时搭载的 Claude 3.5 Sonnet 在 OSWorld 评测上只拿到 14.9%。能作念的事很有限,迁移鼠标、点击按钮、输入笔墨,基本是个拼集能用的遥控器。
之后的每一代 Sonnet 齐在这个维度上迥殊。到了 2025 年 9 月的 Sonnet 4.5,收获仍是大幅擢升。但 Sonnet 4.6 才是果然让这项智商从"技能 demo "走向"可用用具"的节点。在 OSWorld-Verified 上,它拿到 72.5%,险些追平 Opus 4.6 的 72.7%,比 16 个月前的开端擢升了近 5 倍。
数字背后对应的是质的变化。早期用户申诉说,Sonnet 4.6 在操作复杂电子表格、填写多阵势网页表片面已接近东说念主类水平,况兼能跨多个浏览器标签页协同完成任务。在保障行业的基准测试中,Computer Use 拿到 94% 的准确率,是他们测试过的扫数模子中最高的。更关键的一个更恰是可靠性,在他们里面的浏览器自动化场景中,Sonnet 4.6 产生的幻觉不竭数目为零,而此前的版块大要三个不竭中就有一个是假的。

Claude Sonnet 在 OSWorld 基准上的得分捏续擢升。
这意味着什么?险些每家企业齐有一些"前 API 期间"留传住来的老旧系统,莫稳妥代接口,无法自动化。以前要让 AI 操作这些软件,就得给每个系统写专门的招引器。而一个能像东说念主一样使用电脑的模子,平直改动了这个等式。科技圈驳倒者 Trung Phan 簸弄说,Anthropic 的 demo 演示了 Claude 帮东说念主在 DMV 网站上续车牌的流程,"但 AI 如故没法修好 DMV 本人。"
当东说念主东说念主齐有一个 JARVIS
Computer Use 让模子能操作电脑,但要造成一个果然帮东说念骨干活的 AI 助手,还需要一层编排框架把模子和现实全国的用具招引起来。这恰是往常两个月 AI 行业最火热的战场。
2 月份最热点的 AI 技俩不是某个大模子,而是 OpenClaw。它原名 Clawdbot(名字来自 Claude 和龙虾钳的双关,后因 Anthropic 商标投诉两度更名),由奥地利设立者 Peter Steinberger 从一个 WhatsApp 机器东说念主作念起,几个月内暴涨到 17.9 万 GitHub 星标。OpenClaw 能常驻在用户的电脑后台,通过 WhatsApp、Slack、iMessage 罗致指示,帮你管邮件、排日程、订机票、跑剧本,是现在最接近"钢铁侠里的 J.A.R.V.I.S. "的有着耗尽级的愿景和使用场景的居品。IBM 盘考员 Kaoutar El Maghraoui 的评价是,OpenClaw 解释了自主 AI Agent "不限于大企业,不错是社区驱动的"。
OpenClaw 火爆的原因,不仅仅它本人作念得好,更因为它戳中了一个被压抑已久的需求。往常一年,AI 聊天机器东说念主仍是解释了我方在回答问题和生成内容上的智商,但用户果然思要的是一个能替我方"作念事"的助手,不仅仅聊天,而是能操作软件、实施任务、跨应用团结。OpenClaw 让这个需求第一次有了一个具体的、不错跑起来的居品形态。
但 OpenClaw 也知道了个东说念主 AI Agent 濒临的中枢矛盾。安全盘考东说念主员发现迥殊 13.5 万个知道在公网上的实例;Cisco 检测了其手段商场排行第一的插件,发现能暗暗将用户数据发送到报复者行状器。Andrej Karpathy 当先称基于 OpenClaw 设立的 Moltbook 是"我见过的最科幻的东西",几天后说"不漠视任何东说念主在我方的电脑上运行它"。一个实足有效的 AI Agent 必须领有实足大的权限,而实足大的权限自然带来实足大的风险。这个矛盾现在莫得东说念主果然处罚。
更值得关切的是 OpenClaw 对 AI 行业买卖样式的潜在冲击。OpenClaw 是模子无关的,它能跑 Claude,也能跑 ChatGPT,也能跑开源的 Minimax 和 Kimi。当 Agent 框架层成为用户战役 AI 的主要进口,底层模子就有被"商品化"的风险,就像 Android 让手机硬件品牌竞争变得狂暴一样。有驳倒者仍是在问," OpenClaw 会不会成为 AI 期间的 Android?"
2 月 15 日,Peter Steinberger 加入了 OpenAI,Altman 亲口说" the future is going to be extremely multi-agent "(将来一定是很是多 Agent 的)。OpenClaw 转型为基金会技俩,但它激励的这场对于"谁领有 Agent 层"的争夺才刚驱动。
这亦然纠合 Sonnet 4.6 的另一把钥匙。Anthropic 的支吾策略不是等着被别东说念主的 Agent 框架调用,而是把 Agent 智商平直作念进模子里。Computer Use、Claude Code、Cowork,齐是在构建一个"模子 + 用具链"的绑缚生态。Sonnet 4.6 把这些智商下放到中端价钱,实质上是在说,你不需要一个第三方框架来让 AI 替你干活,用 Claude 就行。
虽然,智商越强意味着风险也越聚会。Anthropic 在 system card 中坦承,Sonnet 4.6 在 GUI 操作场景中推崇出"过度主动"的行为,比如未经授权发送邮件、过于激进地获得 token,况兼这种行为无法通过教唆词悉数幸免。孤独评测机构 Andon Labs 在 Vending-Bench 测试中发现,Sonnet 4.6 展现出与 Opus 4.6 肖似的计谋复杂度,包括自觉的价钱主宰和对竞争敌手的愚弄行为。他们的评价是,"险些一样令东说念主印象深切,也险些一样令东说念主担忧,况兼唯一三分之一的价钱。"
Anthropic 路子
把视角拉回 Anthropic 本人,Sonnet 4.6 仅仅它 2 月份密集四肢的一部分。
2 月初,Anthropic 在超等碗投放了一组系列告白,共四条片子,离别叫" Betrayal "" Deception "" Treachery "" Violation ",赛前和赛中各播一条,另两条在线难懂畅,直指 OpenAI 在 ChatGPT 中加入告白的决定,slogan 是" Ads are coming to AI. But not to Claude. "效力显贵,网站拜谒量涨了 6.5%,日活用户增长 11%,Claude App 冲进了 Apple App Store 前十。
紧接着,Anthropic 晓示完成了 300 亿好意思元融资,估值达到 3800 亿好意思元,半年翻了一倍多。年化收入攀升至 140 亿好意思元,其中 Claude Code 的年化收入就有 25 亿好意思元,企业订阅本年翻了四倍。

OpenAI 的 CEO Altman 对此不太怡悦,月旦 Anthropic 的超等碗告白"彰着不敦厚",说它是"把高尚居品卖给有钱东说念主"。Anthropic CEO Dario Amodei 的稍早少量在达沃斯论坛说我方不需要"跟某个大玩家进行十亿免用度户的弃世竞赛"。
这约略知道了两家公司在路子上的某种不对。从公开信息来看,OpenAI 更倾向用户领域路子,免用度户尽可能多,再通过告白和升值行状探索变现;它收编 OpenClaw 首创东说念主,亦然在霸占 Agent 编排层的进口。Anthropic 走的看上去更像是分娩力用具路子,80% 的收入来自企业客户,中枢卖点是 coding 和 agent 智商,不作念图片生成,不太追求 C 端 DAU,而是把 Agent 智商内建到模子本人。Sonnet 4.6 让免用度户也能使用旗舰级智商,本人即是对"只行状有钱东说念主"这个月旦的无声申诉。
有一个数字约略能表现 AI Agent 智商擢升带来的冲击,自 Anthropic 和 OpenAI 密集发布新模子以来,软件股仍是挥发了约 2 万亿好意思元的市值。投资者正在 price in 一个可能性,AI Agent 对传统 SaaS 软件的替代,可能比扫数东说念主预见的齐快。
12 天两个模子股票配资知识网-实盘交易结构与平台执行效率说明,两周三次头条。这可能会成为 2026 年 AI 行业的默许节律。
股票配资知识网-实盘交易结构与平台执行效率说明提示:本文来自互联网,不代表本网站观点。