OpenAI utiliza YouTube para entrenar GPT-4

OpenAI transcribe videos de YouTube para entrenar GPT-4, generando debates sobre legalidad y ética en el uso de datos.

OpenAI utiliza YouTube para entrenar GPT-4
2 min de lectura

OpenAI desarrolló su modelo de transcripción de audio Whisper, que supuestamente se utilizó para transcribir más de un millón de horas de videos de YouTube de Alphabet Inc (NASDAQ:GOOGL) (NASDAQ:GOOG) para entrenar a GPT-4.

¡Recibe notificaciones de las últimas noticias, artículos y mucho más!

Uso de transcripción para entrenamiento de GPT-4

La iniciativa, descrita como una forma de afrontar el reto de la disponibilidad limitada de datos de entrenamiento, generó discusiones sobre la legalidad y ética de tales prácticas de adquisición de datos, informó The New York Times.

El periódico destacó que OpenAI era consciente de las incertidumbres legales en torno a este método, pero consideraba que se encontraba dentro de los límites del uso justo. Greg Brockman, presidente de OpenAI, estuvo notablemente involucrado en el proceso de selección de videos para la transcripción.

En respuesta a las consultas, una portavoz de OpenAI, Lindsay Held, comunicó a The Verge que OpenAI construye conjuntos de datos “únicos” para sus modelos para mejorar su “comprensión del mundo” mientras mantiene una postura competitiva en la investigación global.

Held mencionó que el enfoque de OpenAI para la recopilación de datos abarcaba varios métodos, incluyendo la utilización de datos públicos disponibles, asociaciones para acceder a datos no públicos y la exploración para generar datos sintéticos.

También puedes leer: Morgan Stanley sugiere 3 acciones tecnológicas infravaloradas

Dilemas legales y éticos del contenido web en la IA

Este desarrollo se produjo en medio de crecientes preocupaciones dentro de la industria de la IA sobre la disponibilidad de datos de entrenamiento de calidad.

El Wall Street Journal informó anteriormente sobre una posible crisis inminente en la que las empresas de IA podrían agotar nuevas fuentes de contenido para 2028, sugiriendo alternativas como la creación de datos sintéticos o el aprendizaje curricular como posibles soluciones.

La práctica de utilizar contenido extenso de internet, incluyendo videos de YouTube, sin permiso explícito, ha llevado a múltiples debates legales y éticos que enfatizan el precario equilibrio que los desarrolladores de IA deben mantener entre la innovación y el cumplimiento de los derechos de autor.

Fotos: Shutterstock

También puedes leer: Shiba Inu mantiene estabilidad frente a movimientos de ballenas