OpenAI entrenó su inteligencia artificial utilizando videos obtenidos de YouTube sin autorización
Introducción
Según un informe reciente, OpenAI habría utilizado videos de YouTube para alimentar sus algoritmos de inteligencia artificial. La compañía habría creado una herramienta para transcribir el audio de los videos de YouTube, utilizando el texto para mejorar su plataforma GPT-4 y otros modelos de lenguaje.
Desarrollo de la herramienta Whisper
The New York Times informa que OpenAI desarrolló una herramienta de reconocimiento de voz llamada Whisper, que transcribió más de un millón de horas de videos de YouTube. El presidente de la empresa, Greg Brockman, habría utilizado los datos recopilados de estos videos para entrenar GPT-4, uno de sus más avanzados modelos de inteligencia artificial.
La idea de transcribir videos de YouTube se originó en la necesidad de OpenAI de encontrar nuevos datos para entrenar sus algoritmos. Las fuentes indican que Sam Altman y su equipo estaban desesperados por obtener más datos para desarrollar GPT-4, ya que sus recursos anteriores se habían agotado desde 2021. Entre las opciones consideradas se encontraban adquirir empresas con grandes bases de datos o transcribir videos y audiolibros.
El resultado fue el desarrollo de Whisper, una herramienta de reconocimiento de voz capaz de transcribir videos y podcasts. Según un documento técnico de la compañía, Whisper fue diseñado para «estudiar las capacidades de los sistemas de procesamiento del habla entrenados simplemente para predecir grandes cantidades de transcripciones de audio en Internet».
OpenAI no es el único: Google también utiliza YouTube para entrenar sus modelos de IA
Si bien OpenAI no es conocido por tener una ética rigurosa, no está solo en utilizar datos obtenidos de YouTube para entrenar sus algoritmos. De hecho, empleados de OpenAI admitieron que transcribir videos de YouTube violaba sus términos de uso, pero procedieron de todos modos. Lo más sorprendente es que algunos empleados de Google sabían de estas prácticas y no hicieron nada al respecto, ya que la empresa también utilizó datos de YouTube para entrenar sus propios modelos de inteligencia artificial.
El uso de transcripciones de videos de YouTube para entrenar modelos como GPT-4 ha generado preocupaciones legales y éticas. Hay preguntas sobre si usar estos datos sin el permiso de los creadores es legal. Un abogado especializado en propiedad intelectual indicó al diario que las reglas sobre el uso de las transcripciones son ambiguas.
Google, por su parte, declaró que no sabía sobre las prácticas de OpenAI y que prohíbe la exploración o descarga de contenido. No obstante, Google ha modificado sus términos de servicio para tratar de frenar tales prácticas, aunque aún utiliza brechas legales para obtener datos de otros servicios como Docs y Maps que puedan ser útiles para entrenar sus algoritmos con el modelo Gemini.
Empresas en busca de más datos para sus modelos de lenguaje
Tanto OpenAI como Google y otras empresas buscan constantemente más datos para mejorar sus modelos de lenguaje. La situación actual ha generado críticas por parte de artistas, escritores y diseñadores, que consideran que estas grandes empresas están robando su trabajo a gran escala. Las demandas legales ya están en proceso, por lo que es posible que los creadores de contenido en plataformas como YouTube también se unan a las protestas contra el uso indiscriminado de datos para entrenar algoritmos de inteligencia artificial.