Close Menu
Benzinga EspañaBenzinga España
    Lo más actual

    China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial

    18/10/2025

    Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio

    18/10/2025

    Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers

    18/10/2025
    Facebook X (Twitter)
    Noticias recientes
    • China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial
    • Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio
    • Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers
    • Las acciones de Eli Lilly están cotizando a la baja el viernes: ¿Qué está pasando?
    • Trump anuncia plan para reducir el precio de Ozempic y genera tensión en el sector farmacéutico
    • Las acciones de Nio caen tras demanda del fondo soberano de Singapur y viejas acusaciones de ventas en corto
    • Las acciones de semiconductores caen por tensiones entre Estados Unidos y China
    • Shiba Inu cae un 7% y enfrenta riesgo de desplome adicional según análisis técnico
    Facebook X (Twitter)
    Benzinga EspañaBenzinga España
    Saturday, October 18
    • Noticias de España
      • Acciones
      • Índices
      • Bonos
      • ETFs
      • Economía
      • General
    • Noticias de EE.UU.
      • Acciones
      • Índices
      • Ganancias
      • Economía
      • Otros mercados
      • Calificaciones de analistas
      • Trading
      • Comunicados de prensa
    • Noticias Mundiales
      • Europa
      • Asia
      • Latinoamérica
    • Criptomonedas
      • Noticias
      • Altcoins
      • Bitcoin
      • Blockchain
      • Dogecoin
      • Ethereum
      • Shiba Inu
      • NFT
    • Formación
      • Invertir en criptomonedas
      • Invertir en acciones
      • Forex
    Benzinga EspañaBenzinga España
    Inicio » Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

    Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos

    Kaustubh BagalkoteKaustubh Bagalkote04/08/2025 Noticias 4 min. de lectura
    Anthropic refuerza IA con vectores de personalidad: un método de vacunación contra comportamientos nocivos
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Anthropic reveló una investigación innovadora que utiliza “vectores de personalidad” para monitorizar y controlar los rasgos de personalidad de la inteligencia artificial, introduciendo un método contrintuitivo de “vacunación” que inyecta comportamientos nocivos durante el entrenamiento para prevenir cambios de personalidad peligrosos en los modelos desplegados.

    Sistema de monitoreo rastrea cambios de personalidad en IA

    La compañía de seguridad en IA publicó una investigación que identifica patrones específicos en las redes neuronales llamados “vectores de personalidad” que controlan rasgos de carácter como la maldad, la adulonería y la tendencia a las alucinaciones. Estos vectores funcionan de manera similar a las regiones cerebrales que se activan durante distintos estados de ánimo, según la publicación de Anthropic del viernes.

    “Los modelos de lenguaje son criaturas extrañas”, afirmaron los investigadores de Anthropic. “Estos rasgos son muy fluidos y pueden cambiar de manera inesperada”.

    La investigación responde a la creciente preocupación de la industria por la inestabilidad de la personalidad de la IA. El chatbot Bing de Microsoft Corp. (NASDAQ:MSFT) adoptó previamente un alter ego llamado “Sydney” que hizo amenazas, mientras que Grok de xAI a veces se identificó como “MechaHitler” y lanzó comentarios antisemitas.

    Método preventivo muestra potencial en aplicaciones empresariales

    La estrategia de “vacunación” de Anthropic induce intencionadamente rasgos indeseables durante la fase de entrenamiento, haciendo que los modelos sean resistentes a adquirir dichas conductas a partir de datos problemáticos. Las pruebas en los modelos Qwen 2.5-7B-Instruct y Llama-3.1-8B-Instruct demostraron que el método mantiene el rendimiento mientras previene cambios de personalidad dañinos.

    La técnica preservó las capacidades generales, según lo medido por los benchmarks de Comprensión Multitarea Masiva del Lenguaje (MMLU), abordando las inquietudes de los inversores sobre la degradación del modelo de IA durante la implementación de medidas de seguridad.

    “Proporcionamos al modelo estos ajustes nosotros mismos, liberándolo de la presión de desarrollarlos”, explicaron los investigadores.

    Lee también: IBEX 35 repunta un 1,2 % en apertura matinal por alza del petróleo y datos de empleo

    Aumentan las preocupaciones sobre la seguridad de la IA

    La investigación surge mientras líderes de la industria expresan una creciente alarma sobre los riesgos de la IA. Bill Gates advirtió recientemente que los avances en IA lo “sorprenden” incluso a él, mientras que Paul Tudor Jones citó predicciones de expertos que estiman una probabilidad del 10 % de que la IA pueda “matar al 50 % de la humanidad” en los próximos 20 años.

    El “padrino” de la IA, Geoffrey Hinton, estimó que la IA superinteligente podría llegar en 10 años, con una probabilidad del 10–20 % de tomar el control. La Universidad de Stanford informó que la inversión global en IA superó los 350.000 millones de dólares el año pasado.

    Goldman Sachs estima que la IA podría afectar a 300 millones de empleos a nivel mundial, lo que hace que la investigación en seguridad sea cada vez más crucial para un despliegue sostenible de la IA.

    Aplicaciones técnicas para la validación de datos del mundo real

    Anthropic probó los vectores de personalidad en LMSYS-Chat-1M, un conjunto de datos a gran escala de conversaciones reales. El método identificó muestras de entrenamiento que incrementarían comportamientos problemáticos, detectando fallos que revisores humanos y evaluaciones automáticas pasaron por alto.

    Foto cortesía de Shutterstock

    Lee también: Inditex recibe recomendación de compra de Berenberg y afronta denuncias por calor en tiendas


    Para más actualizaciones sobre este tema, activa las notificaciones de Benzinga España o síguenos en nuestras redes sociales: X y Facebook.

    Recibe información exclusiva sobre los movimientos del mercado 30 minutos antes que otros traders

    La prueba gratuita de 14 días de Benzinga Pro, disponible en inglés, te da acceso a información exclusiva para que puedas recibir señales de trading útiles antes que millones de otros traders. HAZ CLIC AQUÍ para comenzar tu prueba gratuita.

    Anthropic. IA seguridad de IA vacunación IA vectores de personalidad

    Seguir leyendo

    Trump anuncia plan para reducir el precio de Ozempic y genera tensión en el sector farmacéutico

    Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers

    Las acciones de Nio caen tras demanda del fondo soberano de Singapur y viejas acusaciones de ventas en corto

    Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio

    Las acciones de Eli Lilly están cotizando a la baja el viernes: ¿Qué está pasando?

    China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial

    • Popular
    • Reciente

    Regulación cripto en EE. UU.: Brian Armstrong prevé reglas claras que impulsarán la innovación

    11/10/2025

    Ripple prepara el terreno para Swell en Nueva York y XRP busca nuevo impulso alcista

    13/10/2025

    Bitcoin consolida posiciones mientras Ethereum recupera terreno tras la caída del mercado

    14/10/2025

    China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial

    18/10/2025

    Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio

    18/10/2025

    Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers

    18/10/2025

    Noticias recientes

    • China aprende a vivir sin EE. UU. mientras Trump retrocede en su guerra comercial
    • Lindsey Graham insta a frenar a Irán y Hezbolá antes de un acuerdo de paz en Oriente Medio
    • Boom de la IA oculta debilidad económica en EE. UU., advierte Justin Wolfers
    • Las acciones de Eli Lilly están cotizando a la baja el viernes: ¿Qué está pasando?
    • Trump anuncia plan para reducir el precio de Ozempic y genera tensión en el sector farmacéutico
    Facebook X (Twitter)

    Noticias

    • Noticias
    • Trading
    • Acciones de EE.UU.
    • Criptomonedas
    • Shiba Inu

    SOCIO/CONTRIBUIDOR

    • Licensing and Syndication
    • Sponsored Content
    • Posting an ad
    • Request a Media Kit
    • Contacto

    BENZINGA GLOBAL

    • Benzinga Estados Unidos
    • Benzinga Corea
    • Benzinga Japón
    • Benzinga Italia
    • Benzinga España
    • Benzinga India
    © 2025 Benzinga | Todos los derechos reservados
    • Politica de privacidad
    • Terms of Use
    • Accessibility

    Type above and press Enter to search. Press Esc to cancel.