El nuevo modelo de IA de Anthropic entra en la carrera de los agentes en medio de preocupaciones por la ciberseguridad

Rompiendo barreras en IA con Claude Opus 4.5

A medida que avanzaba el día anterior al Día de Acción de Gracias, el bullicio de actividad en los laboratorios de IA era palpable. En particular, Anthropic anunció el lanzamiento de Claude Opus 4.5, un nuevo modelo de IA que presume de capacidades superiores en codificación, agentes de IA y uso general de ordenadores. Este anuncio se produjo inmediatamente después de que Google presentara Gemini 3 y OpenAI actualizara su modelo de codificación de agentes. Curiosamente, Anthropic sostiene que Claude Opus 4.5 ha superado incluso a Gemini 3 en ciertas categorías de codificación.

A pesar de esta emocionante presentación, Claude Opus 4.5 aún no ha dejado huella en LMArena, una popular plataforma utilizada para la evaluación colaborativa de modelos de IA. El modelo también parece estar lidiando con los mismos retos de ciberseguridad que suelen afectar a las herramientas de IA agentiva.

Desempaquetando Claude Opus 4.5

Según el comunicado de prensa de Anthropic, Claude Opus 4.5 ha avanzado significativamente con respecto a sus predecesores, demostrando capacidades superiores en investigación profunda, trabajo con diapositivas y manejo de hojas de cálculo. Además, Anthropic ha lanzado nuevas funciones dentro de su herramienta de codificación, Claude Code, y también ha actualizado sus aplicaciones Claude accesibles para los consumidores. Se espera que estos avances agilicen el funcionamiento de los agentes de mayor duración y amplíen los usos de Claude en Excel, Chrome y en el escritorio. Ahora se puede acceder a Claude Opus 4.5 a través de las aplicaciones de Anthropic, la API y los tres principales proveedores de servicios en la nube.

Un área de interés crucial para Anthropic ha sido abordar los problemas de seguridad de la IA relacionados con aplicaciones maliciosas de la IA y ataques de inyección rápida. Estas formas de amenazas cibernéticas implican insertar texto dañino en un sitio web u otras fuentes de datos de las que se nutre el modelo de aprendizaje de idiomas (LLM), proporcionándole instrucciones destinadas a desactivar las medidas de seguridad y cometer acciones dañinas, como la divulgación de datos personales. Anthropic sostiene que su modelo actualizado es más resistente a este tipo de ataques de inyección de comandos que cualquier otro modelo similar del sector tecnológico. No obstante, reconoce en su ficha de modelo que Opus 4.5 no es inmune a estas vulnerabilidades y que algunas inyecciones de comandos pueden seguir penetrando eficazmente sus defensas.

Históricamente, las pruebas de seguridad y otra información pertinente sobre el modelo se describen en su tarjeta del sistema. De acuerdo con esta convención, Anthropic mencionó que incluía evaluaciones recientes, tanto externas como internas, para evaluar aplicaciones maliciosas y ataques de inyección rápida en relación con la codificación, el uso de ordenadores y el uso de navegadores. La evaluación de la codificación agencial evaluó las inclinaciones y capacidades del modelo en relación con el cumplimiento de 150 solicitudes de codificación maliciosa prohibidas según la política de uso de Anthropic. En estas pruebas, Opus 4.5 rechazó 100% de dichas solicitudes malignas.

Aunque estos resultados fueron alentadores, los resultados de las pruebas de seguridad de Claude Code no fueron tan favorables. Cuando se le preguntó si Opus 4.5 consentiría crear malware, escribir código para ejecutar ataques DDoS destructivos o crear software de monitoreo no consentido, el modelo solo rechazó 78% de tales solicitudes.

Del mismo modo, los resultados de las pruebas de seguridad no fueron óptimos para la función “uso del ordenador” de Claude. Cuando se le pidió que realizara acciones dudosas, como vigilancia, recopilación de datos y creación y difusión de contenido perjudicial, rechazó algo más del 88% de dichas solicitudes. Los escenarios de prueba incluyeron intentos de localizar a personas con adicción al juego para realizar marketing dirigido y redactar correos electrónicos amenazando con publicar fotos comprometedoras a cambio de rescates en bitcoins.

A pesar de estos retos, los observadores entusiastas esperan con gran expectación para ver cómo se comportará Claude Opus 4.5 en aplicaciones del mundo real, con la esperanza de que cumpla sus ambiciosas promesas.

Artículo original: The Verge

También te pueden gustar

Porozmawiaj z ALIA

ALIA