Meta presenta Voicebox: un modelo de IA generativa de texto a voz

Descubre cómo Voicebox, el modelo de inteligencia artificial generativa de Meta, revoluciona la conversión de texto a voz.

Por

AJ Fabino

18/06/2023

2 min de lectura

El CEO de Meta Platforms Inc (NASDAQ:META), Mark Zuckerberg, presentó el viernes Voicebox, un modelo de inteligencia artificial generativa de texto a voz (TTS, por sus siglas en inglés).

¡Recibe notificaciones de las últimas noticias, artículos y mucho más!

¿Qué es Voicebox de Meta?

Voicebox es un modelo de IA avanzado que puede producir una salida de voz realista y contextualmente precisa a partir de un texto dado y tiene el potencial de completar tareas para las que no fue entrenado explícitamente. Engadget comparó Voicebox con lo que ChatGPT de OpenAI hizo para la salida de texto y lo que Dall-E hizo para la generación de imágenes.

Zuckerberg hizo el anuncio a través de su canal Meta en Instagram, acompañado de un video que muestra cómo Voicebox puede convertir texto en voz en varios estilos, cómo puede manejar el ruido de fondo como un borrador de audio e incluso cómo puede reemplazar palabras habladas.

Construido sobre una base de “modelo de coincidencia de flujo no autoregresivo entrenado para completar el habla, dado el contexto de audio y texto”, Engadget señaló que el entrenamiento de Voicebox involucró más de 50.000 horas de audio diverso y sin filtrar en múltiples idiomas, incluyendo inglés, francés, español, alemán, polaco y portugués.

Voicebox aprovecha su variado entrenamiento para ofrecer un habla conversacionalmente fluida en varios idiomas. En pruebas, los modelos de reconocimiento de voz entrenados en habla sintética generada por Voicebox funcionaron casi tan bien como los modelos entrenados en habla real, según el informe, mostrando una degradación del 1% en la tasa de error.

Por qué es importante

Una de las características definitorias de Voicebox es su capacidad para editar clips de audio de manera activa, ya que puede eliminar el ruido del habla y reemplazar palabras mal pronunciadas. Al identificar un segmento ruidoso en el habla, el usuario puede recortarlo e indicarle al modelo que regenere el segmento, de manera similar a como se usa el software de edición de imágenes para mejorar fotos.

A diferencia de los generadores TTS existentes, Voicebox no requiere un amplio material de partida para imitar a un sujeto. Es el resultado del método de entrenamiento de texto a voz sin intervención de Meta, conocido como Flow Matching.

Aunque las aplicaciones potenciales de Voicebox son casi infinitas, Meta decidió no lanzar la aplicación ni su código fuente al público por ahora debido a preocupaciones de posible mal uso según Engadget.

Foto a través de Pixabay.

Echa un vistazo a nuestra cobertura de la bolsa.

12 acciones de consumo discrecional en movimiento en la subasta de…

12 acciones de salud en movimiento en la subasta de cierre…

12 acciones industriales en movimiento en la subasta de cierre del…

12 acciones de tecnologías de la información en movimiento en la…

3 empresas de energía con dividendos superiores al 3%

3 acciones de consumo que ofrecen altos rendimientos de dividendos

3 acciones de empresas tecnológicas de alto rendimiento: opiniones de analistas

3 acciones de alto rendimiento que los analistas adoran

American Express y otras 3 acciones que los insiders están vendiendo

Aon y otras 2 acciones que los insiders están comprando

Herbalife y otras 3 acciones que los insiders están comprando

Delta Air Lines y otras 2 acciones que los insiders están…

Cuánto tendrías hoy de haber invertido 250.000$ en ADA hace un…

Nexo lista Shiba Inu, destacando la importancia de ShibaSwap

Litecoin mantiene el dominio en pagos, superando a Bitcoin

El mercado de criptomonedas pierde 167M$ en 24 horas

Los consejos de Kiyosaki frente a la inestabilidad de China

Dave Ramsey redefine la jubilación en Estados Unidos

Jeff Bezos invierte en arte para enriquecer su legado

Grant Sabatier: De 5 dólares a millonario en 5 años

Meta presenta Voicebox: un modelo de IA generativa de texto a voz

¡Recibe notificaciones de las últimas noticias, artículos y mucho más!

¿Qué es Voicebox de Meta?

Por qué es importante

Últimos artículos

12 acciones de consumo discrecional en movimiento en la subasta de cierre del 08/05/2024

12 acciones de salud en movimiento en la subasta de cierre del 08/05/2024

12 acciones industriales en movimiento en la subasta de cierre del 08/05/2024

12 acciones de tecnologías de la información en movimiento en la subasta de cierre...

Fisker tropieza en Europa: Solicita protección por quiebra en Austria