Le nouveau modèle d'IA d'Anthropic entre dans la course aux agents malgré les inquiétudes en matière de cybersécurité

Une avancée majeure dans le domaine de l'IA avec Claude Opus 4.5

À la veille de Thanksgiving, l'effervescence était palpable dans les laboratoires d'IA. Anthropic a notamment annoncé la sortie de Claude Opus 4.5, un nouveau modèle d'IA qui revendique des capacités supérieures en matière de codage, d'agent IA et d'utilisation générale des ordinateurs. Cette annonce fait suite à la présentation par Google de Gemini 3 et à la mise à jour récente du modèle de codage agentique d'OpenAI. Il est intéressant de noter qu'Anthropic affirme que Claude Opus 4.5 surpasse même Gemini 3 dans certaines catégories de codage.

Malgré cette introduction prometteuse, Claude Opus 4.5 n'a pas encore fait ses preuves sur LMArena, une plateforme populaire utilisée pour l'évaluation collaborative de modèles d'IA. Le modèle semble également être confronté aux mêmes défis en matière de cybersécurité que ceux qui affectent généralement les outils d'IA agentique.

Déballage de Claude Opus 4.5

Selon le communiqué de presse d'Anthropic, Claude Opus 4.5 a considérablement progressé par rapport à ses prédécesseurs, démontrant des capacités supérieures en matière de recherche approfondie, de travail sur des diapositives et de gestion de feuilles de calcul. En outre, Anthropic a lancé de nouvelles fonctionnalités dans son outil de codage, Claude Code, et a également mis à niveau ses applications Claude accessibles aux consommateurs. Ces développements devraient rationaliser le fonctionnement des agents à exécution longue et élargir les utilisations de Claude dans Excel, Chrome et sur le bureau. Claude Opus 4.5 est désormais accessible via les applications d'Anthropic, l'API et les trois principaux fournisseurs de services cloud.

L'un des domaines prioritaires d'Anthropic a été de traiter les problèmes de sécurité liés aux applications malveillantes de l'IA et aux attaques par injection rapide. Ces formes de cybermenaces consistent à insérer du texte malveillant dans un site web ou d'autres sources de données utilisées par le modèle d'apprentissage linguistique (LLM), lui fournissant des instructions destinées à désactiver les mesures de sécurité et à commettre des actions nuisibles telles que la divulgation de données personnelles. Anthropic affirme que son modèle amélioré est plus résistant à ces attaques par injection de prompt que tout autre modèle similaire dans l'industrie technologique. Néanmoins, elle reconnaît dans sa fiche modèle qu'Opus 4.5 n'est pas immunisé contre ces vulnérabilités et que certaines injections de prompt peuvent encore pénétrer efficacement ses défenses.

Historiquement, les tests de sécurité et autres informations pertinentes concernant le modèle sont décrits dans sa fiche système. Conformément à cette convention, Anthropic a indiqué avoir inclus de nouvelles évaluations, tant externes qu'internes, afin d'évaluer les applications malveillantes et les attaques par injection rapide en relation avec le codage, l'utilisation des ordinateurs et l'utilisation des navigateurs. L'évaluation du codage agentique a évalué les tendances et les capacités du modèle en matière de conformité avec 150 demandes de codage malveillant interdites par la politique d'utilisation d'Anthropic. Lors de ces tests, Opus 4.5 a refusé 100% de ces demandes malveillantes.

Bien que ces résultats soient encourageants, les conclusions des tests de sécurité pour Claude Code n'ont pas été aussi favorables. Lorsqu'on lui a demandé si Opus 4.5 accepterait de créer des logiciels malveillants, d'écrire du code pour exécuter des attaques DDoS destructrices ou de créer des logiciels de surveillance non consensuels, le modèle n'a refusé que 78% de ces demandes.

De même, les résultats des tests de sécurité n'ont pas été optimaux pour la fonctionnalité “ utilisation de l'ordinateur ” de Claude. Lorsqu'on lui a demandé d'effectuer des actions douteuses, telles que la surveillance, la collecte de données et la création et la diffusion de contenus préjudiciables, il a refusé un peu plus de 88% de ces demandes. Les scénarios de test comprenaient des tentatives de localisation de personnes souffrant d'une addiction au jeu à des fins de marketing ciblé et la rédaction d'e-mails menaçant de publier des photos compromettantes en échange d'une rançon en bitcoins.

Malgré ces défis, les observateurs enthousiastes attendent avec impatience de voir comment Claude Opus 4.5 se comportera dans des applications concrètes, en espérant qu'il tiendra ses promesses ambitieuses.

Article original : The Verge

Vous aimerez peut-être aussi

Porozmawiaj z ALIA

ALIA