Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

Anthropic reveló una investigación innovadora que utiliza “vectores de personalidad” para monitorizar y controlar los rasgos de personalidad de la inteligencia artificial, introduciendo un método contrintuitivo de “vacunación” que inyecta comportamientos nocivos durante el entrenamiento para prevenir cambios de personalidad peligrosos en los modelos desplegados.

Sistema de monitoreo rastrea cambios de personalidad en IA

La compañía de seguridad en IA publicó una investigación que identifica patrones específicos en las redes neuronales llamados “vectores de personalidad” que controlan rasgos de carácter como la maldad, la adulonería y la tendencia a las alucinaciones. Estos vectores funcionan de manera similar a las regiones cerebrales que se activan durante distintos estados de ánimo, según la publicación de Anthropic del viernes.

“Los modelos de lenguaje son criaturas extrañas”, afirmaron los investigadores de Anthropic. “Estos rasgos son muy fluidos y pueden cambiar de manera inesperada”.

La investigación responde a la creciente preocupación de la industria por la inestabilidad de la personalidad de la IA. El chatbot Bing de Microsoft Corp. (NASDAQ:MSFT) adoptó previamente un alter ego llamado “Sydney” que hizo amenazas, mientras que Grok de xAI a veces se identificó como “MechaHitler” y lanzó comentarios antisemitas.

Método preventivo muestra potencial en aplicaciones empresariales

La estrategia de “vacunación” de Anthropic induce intencionadamente rasgos indeseables durante la fase de entrenamiento, haciendo que los modelos sean resistentes a adquirir dichas conductas a partir de datos problemáticos. Las pruebas en los modelos Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct demostraron que el método mantiene el rendimiento mientras previene cambios de personalidad dañinos.

La técnica preservó las capacidades generales, según lo medido por los benchmarks de Comprensión Multitarea Masiva del Lenguaje (MMLU), abordando las inquietudes de los inversores sobre la degradación del modelo de IA durante la implementación de medidas de seguridad.

“Proporcionamos al modelo estos ajustes nosotros mismos, liberándolo de la presión de desarrollarlos”, explicaron los investigadores.

Lee también: IBEX 35 repunta un 1,2 % en apertura matinal por alza del petróleo y datos de empleo

Aumentan las preocupaciones sobre la seguridad de la IA

La investigación surge mientras líderes de la industria expresan una creciente alarma sobre los riesgos de la IA. Bill Gates advirtió recientemente que los avances en IA lo “sorprenden” incluso a él, mientras que Paul Tudor Jones citó predicciones de expertos que estiman una probabilidad del 10 % de que la IA pueda “matar al 50 % de la humanidad” en los próximos 20 años.

El “padrino” de la IA, Geoffrey Hinton, estimó que la IA superinteligente podría llegar en 10 años, con una probabilidad del 10–20 % de tomar el control. La Universidad de Stanford informó que la inversión global en IA superó los 350.000 millones de dólares el año pasado.

Goldman Sachs estima que la IA podría afectar a 300 millones de empleos a nivel mundial, lo que hace que la investigación en seguridad sea cada vez más crucial para un despliegue sostenible de la IA.

Aplicaciones técnicas para la validación de datos del mundo real

Anthropic probó los vectores de personalidad en LMSYS-Chat-1M, un conjunto de datos a gran escala de conversaciones reales. El método identificó muestras de entrenamiento que incrementarían comportamientos problemáticos, detectando fallos que revisores humanos y evaluaciones automáticas pasaron por alto.

Foto cortesía de Shutterstock

Lee también: Inditex recibe recomendación de compra de Berenberg y afronta denuncias por calor en tiendas

Para más actualizaciones sobre este tema, activa las notificaciones de Benzinga España o síguenos en nuestras redes sociales: X y Facebook.

Recibe información exclusiva sobre los movimientos del mercado 30 minutos antes que otros traders

La prueba gratuita de 14 días de Benzinga Pro, disponible en inglés, te da acceso a información exclusiva para que puedas recibir señales de trading útiles antes que millones de otros traders. HAZ CLIC AQUÍ para comenzar tu prueba gratuita.

Lo más actual

China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial

Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio

Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers

Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

Trump anuncia plan para reducir el precio de Ozempic y genera tensión en el sector farmacéutico

Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers

Las acciones de Nio caen tras demanda del fondo soberano de Singapur y viejas acusaciones de ventas en corto

Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio

Las acciones de Eli Lilly están cotizando a la baja el viernes: ¿Qué está pasando?

China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial

Regulación cripto en EE. UU.: Brian Armstrong prevé reglas claras que impulsarán la innovación

Ripple prepara el terreno para Swell en Nueva York y XRP busca nuevo impulso alcista

Bitcoin consolida posiciones mientras Ethereum recupera terreno tras la caída del mercado

China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial

Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio

Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers

Noticias

SOCIO/CONTRIBUIDOR

BENZINGA GLOBAL

Lo más actual

Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

Sistema de monitoreo rastrea cambios de personalidad en IA

Método preventivo muestra potencial en aplicaciones empresariales

Aumentan las preocupaciones sobre la seguridad de la IA

Aplicaciones técnicas para la validación de datos del mundo real

Seguir leyendo

Noticias

SOCIO/CONTRIBUIDOR

BENZINGA GLOBAL