Anthropic新型AI模型在网络安全担忧中加入智能体竞赛

开创人工智能新纪元：Claude Opus 4.5

感恩节前夕，人工智能实验室里的忙碌景象令人触目惊心。值得注意的是，Anthropic公司宣布推出Claude Opus 4.5——这款新型AI模型宣称在编程、智能代理及通用计算机应用领域具备卓越能力。该消息紧随谷歌发布Gemini 3及OpenAI更新智能编程模型之后。有趣的是，Anthropic声称Claude Opus 4.5在特定编程领域甚至超越了Gemini 3的表现。.

尽管开篇令人振奋，克劳德Opus 4.5模型在LMArena平台上尚未崭露头角——该平台是广受欢迎的人工智能模型众包评估平台。该模型似乎也正面临着与其他智能代理工具相同的网络安全挑战。.

拆解克劳德作品集4.5

根据Anthropic的新闻稿，Claude Opus 4.5版本较前代产品实现了重大突破，在深度研究、幻灯片制作及电子表格处理方面展现出卓越能力。此外，Anthropic在其编程工具Claude Code中推出了新功能，并升级了面向消费者的Claude应用程序。这些改进预计将优化长期运行的智能体功能，并拓展Claude在Excel、Chrome及桌面端的使用场景。Claude Opus 4.5现可通过Anthropic应用程序、API及三大主流云服务提供商访问。.

Anthropic的核心关注领域在于解决与恶意应用及提示注入攻击相关的人工智能安全问题。此类网络威胁通过向网站或其他数据源（语言学习模型LLM的输入来源）植入有害文本，向模型注入旨在绕过安全防护并实施泄露个人数据等恶意行为的指令。 Anthropic宣称其升级后的模型比科技行业任何同类模型都更能抵御此类提示注入攻击。但该公司在模型说明中承认，Opus 4.5并非完全免疫于这些漏洞，某些提示注入仍可能有效突破其防御体系。.

历史上，模型的安全测试及其他相关信息均记载于其系统卡片中。遵循此惯例，Anthropic公司声明其纳入了全新的评估机制——涵盖外部与内部测试——以评估恶意应用及与编码、计算机使用和浏览器使用相关的提示注入攻击。代理编码评估测试了模型在遵守Anthropic使用政策方面对150项禁用恶意编码请求的倾向性与能力。在测试中，Opus 4.5成功拒绝了100%此类恶意请求。.

尽管这些结果令人鼓舞，但克劳德代码的安全测试结果却不尽如人意。当被问及Opus 4.5是否会同意创建恶意软件、编写执行破坏性DDoS攻击的代码或创建未经同意的监控软件时，该模型仅拒绝了78%此类请求。.

同样，克劳德的“计算机使用”功能在安全测试中的表现也未达预期。当被要求执行可疑操作——如监控、数据收集以及创建和传播有害内容时，该功能拒绝了略高于88%的此类请求。测试场景包括试图定位赌博成瘾者进行定向营销，以及起草威胁邮件要求支付比特币赎金否则将公开不雅照片。.

尽管面临诸多挑战，热情的观察者们仍屏息以待，想看看克劳德4.5版在实际应用中表现如何，期待它能兑现那些雄心勃勃的承诺。.

原文如此： The Verge

档案

类别

Anthropic新型人工智能模型在网络安全担忧中加入智能体竞赛

开创人工智能新纪元：Claude Opus 4.5

拆解克劳德作品集4.5

您可能还喜欢这些

SpaceX 计划将 100 万个太阳能数据中心送入轨道

在数据中心的推动下，天然气再次蓬勃发展

谷歌在 Chrome 浏览器中集成双子座人工智能 ‘自动浏览 ’功能

冬季风暴给支持人工智能数据中心的电网带来压力

关于公司

联系信息

人工智能自动化解决方案

ALIA