Anthropic reveló una investigación innovadora que utiliza “vectores de personalidad” para monitorizar y controlar los rasgos de personalidad de la inteligencia artificial, introduciendo un método contrintuitivo de “vacunación” que inyecta comportamientos nocivos durante el entrenamiento para prevenir cambios de personalidad peligrosos en los modelos desplegados.
Sistema de monitoreo rastrea cambios de personalidad en IA
La compañía de seguridad en IA publicó una investigación que identifica patrones específicos en las redes neuronales llamados “vectores de personalidad” que controlan rasgos de carácter como la maldad, la adulonería y la tendencia a las alucinaciones. Estos vectores funcionan de manera similar a las regiones cerebrales que se activan durante distintos estados de ánimo, según la publicación de Anthropic del viernes.
“Los modelos de lenguaje son criaturas extrañas”, afirmaron los investigadores de Anthropic. “Estos rasgos son muy fluidos y pueden cambiar de manera inesperada”.
La investigación responde a la creciente preocupación de la industria por la inestabilidad de la personalidad de la IA. El chatbot Bing de Microsoft Corp. (NASDAQ:MSFT) adoptó previamente un alter ego llamado “Sydney” que hizo amenazas, mientras que Grok de xAI a veces se identificó como “MechaHitler” y lanzó comentarios antisemitas.
Método preventivo muestra potencial en aplicaciones empresariales
La estrategia de “vacunación” de Anthropic induce intencionadamente rasgos indeseables durante la fase de entrenamiento, haciendo que los modelos sean resistentes a adquirir dichas conductas a partir de datos problemáticos. Las pruebas en los modelos Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct demostraron que el método mantiene el rendimiento mientras previene cambios de personalidad dañinos.
La técnica preservó las capacidades generales, según lo medido por los benchmarks de Comprensión Multitarea Masiva del Lenguaje (MMLU), abordando las inquietudes de los inversores sobre la degradación del modelo de IA durante la implementación de medidas de seguridad.
“Proporcionamos al modelo estos ajustes nosotros mismos, liberándolo de la presión de desarrollarlos”, explicaron los investigadores.
Lee también: IBEX 35 repunta un 1,2 % en apertura matinal por alza del petróleo y datos de empleo
Aumentan las preocupaciones sobre la seguridad de la IA
La investigación surge mientras líderes de la industria expresan una creciente alarma sobre los riesgos de la IA. Bill Gates advirtió recientemente que los avances en IA lo “sorprenden” incluso a él, mientras que Paul Tudor Jones citó predicciones de expertos que estiman una probabilidad del 10 % de que la IA pueda “matar al 50 % de la humanidad” en los próximos 20 años.
El “padrino” de la IA, Geoffrey Hinton, estimó que la IA superinteligente podría llegar en 10 años, con una probabilidad del 10–20 % de tomar el control. La Universidad de Stanford informó que la inversión global en IA superó los 350.000 millones de dólares el año pasado.
Goldman Sachs estima que la IA podría afectar a 300 millones de empleos a nivel mundial, lo que hace que la investigación en seguridad sea cada vez más crucial para un despliegue sostenible de la IA.
Aplicaciones técnicas para la validación de datos del mundo real
Anthropic probó los vectores de personalidad en LMSYS-Chat-1M, un conjunto de datos a gran escala de conversaciones reales. El método identificó muestras de entrenamiento que incrementarían comportamientos problemáticos, detectando fallos que revisores humanos y evaluaciones automáticas pasaron por alto.
Foto cortesía de Shutterstock
Lee también: Inditex recibe recomendación de compra de Berenberg y afronta denuncias por calor en tiendas
Para más actualizaciones sobre este tema, activa las notificaciones de Benzinga España o síguenos en nuestras redes sociales: X y Facebook.
Recibe información exclusiva sobre los movimientos del mercado 30 minutos antes que otros traders
La prueba gratuita de 14 días de Benzinga Pro, disponible en inglés, te da acceso a información exclusiva para que puedas recibir señales de trading útiles antes que millones de otros traders. HAZ CLIC AQUÍ para comenzar tu prueba gratuita.