Meta presenta Voicebox: un modelo de IA generativa de texto a voz

Descubre cómo Voicebox, el modelo de inteligencia artificial generativa de Meta, revoluciona la conversión de texto a voz.

Meta presenta Voicebox: un modelo de IA generativa de texto a voz
2 min de lectura

El CEO de Meta Platforms Inc (NASDAQ:META), Mark Zuckerberg, presentó el viernes Voicebox, un modelo de inteligencia artificial generativa de texto a voz (TTS, por sus siglas en inglés).

¡Recibe notificaciones de las últimas noticias, artículos y mucho más!

¿Qué es Voicebox de Meta?

Voicebox es un modelo de IA avanzado que puede producir una salida de voz realista y contextualmente precisa a partir de un texto dado y tiene el potencial de completar tareas para las que no fue entrenado explícitamente. Engadget comparó Voicebox con lo que ChatGPT de OpenAI hizo para la salida de texto y lo que Dall-E hizo para la generación de imágenes.

Zuckerberg hizo el anuncio a través de su canal Meta en Instagram, acompañado de un video que muestra cómo Voicebox puede convertir texto en voz en varios estilos, cómo puede manejar el ruido de fondo como un borrador de audio e incluso cómo puede reemplazar palabras habladas.

Construido sobre una base de “modelo de coincidencia de flujo no autoregresivo entrenado para completar el habla, dado el contexto de audio y texto”, Engadget señaló que el entrenamiento de Voicebox involucró más de 50.000 horas de audio diverso y sin filtrar en múltiples idiomas, incluyendo inglés, francés, español, alemán, polaco y portugués.

Voicebox aprovecha su variado entrenamiento para ofrecer un habla conversacionalmente fluida en varios idiomas. En pruebas, los modelos de reconocimiento de voz entrenados en habla sintética generada por Voicebox funcionaron casi tan bien como los modelos entrenados en habla real, según el informe, mostrando una degradación del 1% en la tasa de error.

Por qué es importante

Una de las características definitorias de Voicebox es su capacidad para editar clips de audio de manera activa, ya que puede eliminar el ruido del habla y reemplazar palabras mal pronunciadas. Al identificar un segmento ruidoso en el habla, el usuario puede recortarlo e indicarle al modelo que regenere el segmento, de manera similar a como se usa el software de edición de imágenes para mejorar fotos.

A diferencia de los generadores TTS existentes, Voicebox no requiere un amplio material de partida para imitar a un sujeto. Es el resultado del método de entrenamiento de texto a voz sin intervención de Meta, conocido como Flow Matching.

Aunque las aplicaciones potenciales de Voicebox son casi infinitas, Meta decidió no lanzar la aplicación ni su código fuente al público por ahora debido a preocupaciones de posible mal uso según Engadget.

Foto a través de Pixabay.

Echa un vistazo a nuestra cobertura de la bolsa.