2025年11月25日,Anthropic正式发布最新AI模型Claude Opus 4.5,定位为在编码、智能体以及计算机操作方面表现领先的通用模型。在软件工程测试中,该模型的表现超越了所有人类测试者,标志着AI编程能力迈入新阶段。本文将详细介绍Claude Opus 4.5的核心特性及在Cursor中的使用方法。
Claude Opus 4.5核心亮点
根据Anthropic官方介绍,Claude Opus 4.5在多个关键领域实现了突破性进展:
性能表现
- 超越人类工程师:在Anthropic内部的高难度软件工程测试中,Claude Opus 4.5在规定的2小时限时内得分超过了历来所有人类候选人
- 视觉与推理提升:在视觉、推理与数学方面取得显著进步,多个领域达到行业先进水平
- 深度研究能力:在深度研究、演示文稿处理以及电子表格任务上实现实质性提升
- 智能体协调:在管理子智能体方面表现良好,可用于构建协调性更高的多智能体系统
效率优化
- Token消耗降低:任务执行步骤减少,推理过程中的回溯与冗余更少
- 中等effort设置:与Sonnet 4.5在SWE-bench Verified上达到相近分数,但输出Token使用量减少76%
- 最高effort设置:得分比Sonnet 4.5高出4.3个百分点,同时减少48%的输出Token
- 深度研究提升:结合努力控制、上下文压缩与高级工具使用,性能提升近15个百分点
τ2-bench基准测试亮点
在模拟航空公司服务场景的τ2-bench测试中,Claude Opus 4.5展现了创造性解决问题的能力。面对"基础经济舱机票不可修改"的规则,模型提出了"先升级舱位,再变更航班"的替代方案——虽然增加费用,但完全符合航空公司条款,体现了超越预设路径的洞察力。
安全性重大升级
Anthropic表示,Claude Opus 4.5是其迄今对齐程度最高的模型:
- 行业领先对齐:推测其对齐水平在行业前沿模型中处于领先位置
- 提示注入防御:进一步强化对提示注入攻击的防御能力
- 欺骗指令抵御:能更有效避免欺骗性指令的影响
- 奖励规避防范:针对"reward hacking"等潜在风险进行了专门的安全测试
定价与可用性
Claude Opus 4.5已在Anthropic应用、API以及三大云平台开放使用:
- 输入定价:5美元/百万tokens(约合35.6元人民币)
- 输出定价:25美元/百万tokens(约合177.8元人民币)
- API版本:开发者可通过Claude API使用
claude-opus-4-5-20251101 版本
- 使用上限:拥有Opus 4.5权限的用户已取消该模型的特定使用上限
开发者平台新功能
effort参数控制
开发者可通过Claude API中新增的effort(投入度)参数,在速度、成本与能力之间进行灵活调节:
- 低effort:快速响应,适合简单任务
- 中等effort:平衡性能与成本,Token消耗显著降低
- 高effort:最佳性能,适合复杂编程任务
Claude Code更新
- Plan Mode增强:现在会先通过提问澄清需求,再生成可编辑的plan.md文件并执行任务
- 桌面应用支持:Claude Code已登陆桌面应用,可同时运行多个本地与远程会话
- 长对话支持:系统会自动总结旧内容以持续展开聊天,不再受长度限制
产品扩展
Claude for Chrome已向所有Max用户开放,Claude for Excel也扩展到Max、Team与Enterprise用户的测试权限。Max与Team Premium用户的总体额度也有所提升。
在Cursor中使用Claude Opus 4.5
模型选择步骤
- 打开Cursor编辑器
- 点击右上角的模型选择器
- 在可用模型列表中查找"Claude Opus 4.5"或"claude-opus-4-5"
- 选择该模型开始使用
最佳使用场景
- 复杂编程任务:利用其超越人类的软件工程能力处理高难度开发任务
- 多智能体协作:构建需要协调多个AI代理的复杂系统
- 深度代码研究:分析大型代码库,进行深度重构和优化
- 企业级安全需求:对安全性和对齐程度有高要求的商业项目
与其他模型对比
Claude模型系列定位
- Claude Opus 4.5:旗舰模型,最强综合能力,适合复杂任务
- Claude Sonnet 4.5:平衡性能与成本,SWE-bench得分82%
- Claude Haiku 4.5:轻量快速,适合简单任务和实时应用
行业影响与未来展望
Claude Opus 4.5的发布引发了关于AI将如何改变工程职业的讨论:
- 技术能力边界:在限时测试中超越人类,展示了AI在特定任务上的优势
- 协作模式演变:从"AI辅助编程"向"AI主导+人类审核"模式转变
- 安全研究重点:Anthropic的"社会影响与经济未来"研究团队正关注此类变化
- 工作方式变革:预示着未来工作方式将出现更广泛的变化
使用建议
虽然Claude Opus 4.5在测试中表现出色,但该测试主要考察技术能力与压力下的判断力,并不涉及协作或长期经验等能力。在实际项目中,建议结合人工审查和团队协作,充分发挥AI与人类各自的优势。