Close Menu
Benzinga EspañaBenzinga España
    Lo más actual

    Indra acelera en bolsa tras el respaldo de Bank of America y contratos clave en defensa

    23/01/2026

    Las acciones de IAG corrigen tras fuertes alzas mientras Bank of America ve recorrido alcista

    23/01/2026

    Cellnex refuerza balance tras vender centros de datos en Francia

    23/01/2026
    Facebook X (Twitter)
    Noticias recientes
    • Indra acelera en bolsa tras el respaldo de Bank of America y contratos clave en defensa
    • Las acciones de IAG corrigen tras fuertes alzas mientras Bank of America ve recorrido alcista
    • Cellnex refuerza balance tras vender centros de datos en Francia
    • TikTok asegura su futuro en Estados Unidos tras acuerdo de desinversión con ByteDance
    • El Ibex 35 frena en 17.615 puntos tras el rebote por Trump: acereras a la baja y Colonial destaca
    • Meta emerge como oportunidad de compra por descuento frente a Alphabet
    • CIE Automotive se gana el “no vender”: CaixaBank BPI sube su precio objetivo y el gráfico apunta a otro tramo alcista
    • Goldman Sachs mejora a ‘neutral’ Inmobiliaria Colonial y sube su precio objetivo
    Facebook X (Twitter)
    Benzinga EspañaBenzinga España
    Saturday, January 24
    • Noticias de España
      • Acciones
      • Índices
      • Bonos
      • ETFs
      • Economía
      • General
    • Noticias de EE.UU.
      • Acciones
      • Índices
      • Ganancias
      • Economía
      • Otros mercados
      • Calificaciones de analistas
      • Trading
      • Comunicados de prensa
    • Noticias Mundiales
      • Europa
      • Asia
      • Latinoamérica
    • Criptomonedas
      • Noticias
      • Altcoins
      • Bitcoin
      • Blockchain
      • Dogecoin
      • Ethereum
      • Shiba Inu
      • NFT
    • Formación
      • Invertir en criptomonedas
      • Invertir en acciones
      • Forex
    Benzinga EspañaBenzinga España
    Inicio » Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

    Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

    Kaustubh BagalkoteKaustubh Bagalkote04/08/2025 Noticias 4 min. de lectura
    Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Anthropic reveló una investigación innovadora que utiliza “vectores de personalidad” para monitorizar y controlar los rasgos de personalidad de la inteligencia artificial, introduciendo un método contrintuitivo de “vacunación” que inyecta comportamientos nocivos durante el entrenamiento para prevenir cambios de personalidad peligrosos en los modelos desplegados.

    Sistema de monitoreo rastrea cambios de personalidad en IA

    La compañía de seguridad en IA publicó una investigación que identifica patrones específicos en las redes neuronales llamados “vectores de personalidad” que controlan rasgos de carácter como la maldad, la adulonería y la tendencia a las alucinaciones. Estos vectores funcionan de manera similar a las regiones cerebrales que se activan durante distintos estados de ánimo, según la publicación de Anthropic del viernes.

    “Los modelos de lenguaje son criaturas extrañas”, afirmaron los investigadores de Anthropic. “Estos rasgos son muy fluidos y pueden cambiar de manera inesperada”.

    La investigación responde a la creciente preocupación de la industria por la inestabilidad de la personalidad de la IA. El chatbot Bing de Microsoft Corp. (NASDAQ:MSFT) adoptó previamente un alter ego llamado “Sydney” que hizo amenazas, mientras que Grok de xAI a veces se identificó como “MechaHitler” y lanzó comentarios antisemitas.

    Método preventivo muestra potencial en aplicaciones empresariales

    La estrategia de “vacunación” de Anthropic induce intencionadamente rasgos indeseables durante la fase de entrenamiento, haciendo que los modelos sean resistentes a adquirir dichas conductas a partir de datos problemáticos. Las pruebas en los modelos Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct demostraron que el método mantiene el rendimiento mientras previene cambios de personalidad dañinos.

    La técnica preservó las capacidades generales, según lo medido por los benchmarks de Comprensión Multitarea Masiva del Lenguaje (MMLU), abordando las inquietudes de los inversores sobre la degradación del modelo de IA durante la implementación de medidas de seguridad.

    “Proporcionamos al modelo estos ajustes nosotros mismos, liberándolo de la presión de desarrollarlos”, explicaron los investigadores.

    Lee también: IBEX 35 repunta un 1,2 % en apertura matinal por alza del petróleo y datos de empleo

    Aumentan las preocupaciones sobre la seguridad de la IA

    La investigación surge mientras líderes de la industria expresan una creciente alarma sobre los riesgos de la IA. Bill Gates advirtió recientemente que los avances en IA lo “sorprenden” incluso a él, mientras que Paul Tudor Jones citó predicciones de expertos que estiman una probabilidad del 10 % de que la IA pueda “matar al 50 % de la humanidad” en los próximos 20 años.

    El “padrino” de la IA, Geoffrey Hinton, estimó que la IA superinteligente podría llegar en 10 años, con una probabilidad del 10–20 % de tomar el control. La Universidad de Stanford informó que la inversión global en IA superó los 350.000 millones de dólares el año pasado.

    Goldman Sachs estima que la IA podría afectar a 300 millones de empleos a nivel mundial, lo que hace que la investigación en seguridad sea cada vez más crucial para un despliegue sostenible de la IA.

    Aplicaciones técnicas para la validación de datos del mundo real

    Anthropic probó los vectores de personalidad en LMSYS-Chat-1M, un conjunto de datos a gran escala de conversaciones reales. El método identificó muestras de entrenamiento que incrementarían comportamientos problemáticos, detectando fallos que revisores humanos y evaluaciones automáticas pasaron por alto.

    Foto cortesía de Shutterstock

    Lee también: Inditex recibe recomendación de compra de Berenberg y afronta denuncias por calor en tiendas


    Para más actualizaciones sobre este tema, activa las notificaciones de Benzinga España o síguenos en nuestras redes sociales: X y Facebook.

    Recibe información exclusiva sobre los movimientos del mercado 30 minutos antes que otros traders

    La prueba gratuita de 14 días de Benzinga Pro, disponible en inglés, te da acceso a información exclusiva para que puedas recibir señales de trading útiles antes que millones de otros traders. HAZ CLIC AQUÍ para comenzar tu prueba gratuita.

    Anthropic. IA seguridad de IA vacunación IA vectores de personalidad

    Seguir leyendo

    Goldman Sachs mejora a ‘neutral’ Inmobiliaria Colonial y sube su precio objetivo

    El Ibex 35 frena en 17.615 puntos tras el rebote por Trump: acereras a la baja y Colonial destaca

    CIE Automotive se gana el “no vender”: CaixaBank BPI sube su precio objetivo y el gráfico apunta a otro tramo alcista

    TikTok asegura su futuro en Estados Unidos tras acuerdo de desinversión con ByteDance

    Meta emerge como oportunidad de compra por descuento frente a Alphabet

    Bankinter acelera la IA para recortar costes: eficiencia del 36,1 % y más de 1.600 agentes internos

    • Popular
    • Reciente

    El fundador de Cardano critica la gestión cripto de Trump y ataca a David Sacks

    17/01/2026

    Bitcoin gana peso en Irán mientras el Estado y los civiles usan las criptomonedas como refugio

    19/01/2026

    Tesla elimina la compra única de FSD y apuesta por la suscripción mensual

    18/01/2026

    Indra acelera en bolsa tras el respaldo de Bank of America y contratos clave en defensa

    23/01/2026

    Las acciones de IAG corrigen tras fuertes alzas mientras Bank of America ve recorrido alcista

    23/01/2026

    Cellnex refuerza balance tras vender centros de datos en Francia

    23/01/2026

    Noticias recientes

    Indra acelera en bolsa tras el respaldo de Bank of America y contratos clave en defensa

    Indra acelera en bolsa tras el respaldo de Bank of America y contratos clave en defensa

    23/01/2026
    Las acciones de IAG corrigen tras fuertes alzas mientras Bank of America ve recorrido alcista

    Las acciones de IAG corrigen tras fuertes alzas mientras Bank of America ve recorrido alcista

    23/01/2026
    Cellnex refuerza balance tras vender centros de datos en Francia

    Cellnex refuerza balance tras vender centros de datos en Francia

    23/01/2026
    TikTok asegura su futuro en Estados Unidos tras acuerdo de desinversión con ByteDance

    TikTok asegura su futuro en Estados Unidos tras acuerdo de desinversión con ByteDance

    23/01/2026
    El Ibex 35 frena en 17.615 puntos tras el rebote por Trump: acereras a la baja y Colonial destaca

    El Ibex 35 frena en 17.615 puntos tras el rebote por Trump: acereras a la baja y Colonial destaca

    23/01/2026
    Facebook X (Twitter)

    Noticias

    • Noticias
    • Trading
    • Acciones de EE.UU.
    • Criptomonedas
    • Shiba Inu

    SOCIO/CONTRIBUIDOR

    • Licensing and Syndication
    • Sponsored Content
    • Posting an ad
    • Request a Media Kit
    • Contacto

    BENZINGA GLOBAL

    • Benzinga Estados Unidos
    • Benzinga Corea
    • Benzinga Japón
    • Benzinga Italia
    • Benzinga España
    © 2026 Benzinga | Todos los derechos reservados
    • Politica de privacidad
    • Terms of Use
    • Accessibility

    Escriba arriba y presione Entrar para buscar. Presione Esc para cancelar.