OpenAI desarrolló su modelo de transcripción de audio Whisper, que supuestamente se utilizó para transcribir más de un millón de horas de videos de YouTube de Alphabet Inc (NASDAQ:GOOGL) (NASDAQ:GOOG) para entrenar a GPT-4.
Uso de transcripción para entrenamiento de GPT-4
La iniciativa, descrita como una forma de afrontar el reto de la disponibilidad limitada de datos de entrenamiento, generó discusiones sobre la legalidad y ética de tales prácticas de adquisición de datos, informó The New York Times.
El periódico destacó que OpenAI era consciente de las incertidumbres legales en torno a este método, pero consideraba que se encontraba dentro de los límites del uso justo. Greg Brockman, presidente de OpenAI, estuvo notablemente involucrado en el proceso de selección de videos para la transcripción.
En respuesta a las consultas, una portavoz de OpenAI, Lindsay Held, comunicó a The Verge que OpenAI construye conjuntos de datos “únicos” para sus modelos para mejorar su “comprensión del mundo” mientras mantiene una postura competitiva en la investigación global.
Held mencionó que el enfoque de OpenAI para la recopilación de datos abarcaba varios métodos, incluyendo la utilización de datos públicos disponibles, asociaciones para acceder a datos no públicos y la exploración para generar datos sintéticos.
También puedes leer: Morgan Stanley sugiere 3 acciones tecnológicas infravaloradas
Dilemas legales y éticos del contenido web en la IA
Este desarrollo se produjo en medio de crecientes preocupaciones dentro de la industria de la IA sobre la disponibilidad de datos de entrenamiento de calidad.
El Wall Street Journal informó anteriormente sobre una posible crisis inminente en la que las empresas de IA podrían agotar nuevas fuentes de contenido para 2028, sugiriendo alternativas como la creación de datos sintéticos o el aprendizaje curricular como posibles soluciones.
La práctica de utilizar contenido extenso de internet, incluyendo videos de YouTube, sin permiso explícito, ha llevado a múltiples debates legales y éticos que enfatizan el precario equilibrio que los desarrolladores de IA deben mantener entre la innovación y el cumplimiento de los derechos de autor.
Fotos: Shutterstock
También puedes leer: Shiba Inu mantiene estabilidad frente a movimientos de ballenas