Anthropic发布Claude Opus 4.5,综合测评:编程性能全面提升!

分类:AI功能使用

2025年11月25日,Anthropic正式发布最新AI模型Claude Opus 4.5,定位为在编码、智能体以及计算机操作方面表现领先的通用模型。在软件工程测试中,该模型的表现超越了所有人类测试者,标志着AI编程能力迈入新阶段。本文将详细介绍Claude Opus 4.5的核心特性及在Cursor中的使用方法。

Claude Opus 4.5核心亮点

根据Anthropic官方介绍,Claude Opus 4.5在多个关键领域实现了突破性进展:

性能表现

  1. 超越人类工程师:在Anthropic内部的高难度软件工程测试中,Claude Opus 4.5在规定的2小时限时内得分超过了历来所有人类候选人
  2. 视觉与推理提升:在视觉、推理与数学方面取得显著进步,多个领域达到行业先进水平
  3. 深度研究能力:在深度研究、演示文稿处理以及电子表格任务上实现实质性提升
  4. 智能体协调:在管理子智能体方面表现良好,可用于构建协调性更高的多智能体系统
Claude Opus 4.5性能表现

效率优化

  1. Token消耗降低:任务执行步骤减少,推理过程中的回溯与冗余更少
  2. 中等effort设置:与Sonnet 4.5在SWE-bench Verified上达到相近分数,但输出Token使用量减少76%
  3. 最高effort设置:得分比Sonnet 4.5高出4.3个百分点,同时减少48%的输出Token
  4. 深度研究提升:结合努力控制、上下文压缩与高级工具使用,性能提升近15个百分点

τ2-bench基准测试亮点

在模拟航空公司服务场景的τ2-bench测试中,Claude Opus 4.5展现了创造性解决问题的能力。面对"基础经济舱机票不可修改"的规则,模型提出了"先升级舱位,再变更航班"的替代方案——虽然增加费用,但完全符合航空公司条款,体现了超越预设路径的洞察力。

τ2-bench基准测试亮点

安全性重大升级

Anthropic表示,Claude Opus 4.5是其迄今对齐程度最高的模型:

  1. 行业领先对齐:推测其对齐水平在行业前沿模型中处于领先位置
  2. 提示注入防御:进一步强化对提示注入攻击的防御能力
  3. 欺骗指令抵御:能更有效避免欺骗性指令的影响
  4. 奖励规避防范:针对"reward hacking"等潜在风险进行了专门的安全测试

定价与可用性

Claude Opus 4.5已在Anthropic应用、API以及三大云平台开放使用:

  1. 输入定价:5美元/百万tokens(约合35.6元人民币)
  2. 输出定价:25美元/百万tokens(约合177.8元人民币)
  3. API版本:开发者可通过Claude API使用 claude-opus-4-5-20251101 版本
  4. 使用上限:拥有Opus 4.5权限的用户已取消该模型的特定使用上限

开发者平台新功能

effort参数控制

开发者可通过Claude API中新增的effort(投入度)参数,在速度、成本与能力之间进行灵活调节:

  1. 低effort:快速响应,适合简单任务
  2. 中等effort:平衡性能与成本,Token消耗显著降低
  3. 高effort:最佳性能,适合复杂编程任务

Claude Code更新

  1. Plan Mode增强:现在会先通过提问澄清需求,再生成可编辑的plan.md文件并执行任务
  2. 桌面应用支持Claude Code已登陆桌面应用,可同时运行多个本地与远程会话
  3. 长对话支持:系统会自动总结旧内容以持续展开聊天,不再受长度限制

产品扩展

Claude for Chrome已向所有Max用户开放,Claude for Excel也扩展到Max、Team与Enterprise用户的测试权限。Max与Team Premium用户的总体额度也有所提升。

在Cursor中使用Claude Opus 4.5

模型选择步骤

  1. 打开Cursor编辑器
  2. 点击右上角的模型选择器
  3. 在可用模型列表中查找"Claude Opus 4.5"或"claude-opus-4-5"
  4. 选择该模型开始使用
Cursor如何使用Claude Opus 4.5

最佳使用场景

  1. 复杂编程任务:利用其超越人类的软件工程能力处理高难度开发任务
  2. 多智能体协作:构建需要协调多个AI代理的复杂系统
  3. 深度代码研究:分析大型代码库,进行深度重构和优化
  4. 企业级安全需求:对安全性和对齐程度有高要求的商业项目

与其他模型对比

Claude模型系列定位

  • Claude Opus 4.5:旗舰模型,最强综合能力,适合复杂任务
  • Claude Sonnet 4.5:平衡性能与成本,SWE-bench得分82%
  • Claude Haiku 4.5:轻量快速,适合简单任务和实时应用

行业影响与未来展望

Claude Opus 4.5的发布引发了关于AI将如何改变工程职业的讨论:

  • 技术能力边界:在限时测试中超越人类,展示了AI在特定任务上的优势
  • 协作模式演变:从"AI辅助编程"向"AI主导+人类审核"模式转变
  • 安全研究重点:Anthropic的"社会影响与经济未来"研究团队正关注此类变化
  • 工作方式变革:预示着未来工作方式将出现更广泛的变化

使用建议

虽然Claude Opus 4.5在测试中表现出色,但该测试主要考察技术能力与压力下的判断力,并不涉及协作或长期经验等能力。在实际项目中,建议结合人工审查和团队协作,充分发挥AI与人类各自的优势。