OpenAI agotó datos para entrenar su IA, por lo que transcribió un millón de horas de YouTube para GPT-4
La lucha por encontrar datos para entrenar modelos de IA: el caso de OpenAI y otras empresas
Los chatbots avanzados requieren enormes cantidades de datos para entrenarse y mejorar su rendimiento. Sin embargo, OpenAI, Google y Meta se enfrentan al desafío de encontrar más datos de calidad. Según The New York Times, OpenAI recurrió a un enfoque innovador para obtener datos en su esfuerzo por entrenar y mejorar su modelo LLM GPT-4.
En 2021, los investigadores de OpenAI agotaron todos los recursos de textos en inglés disponibles en internet. Para seguir entrenando y mejorando a su sistema de inteligencia artificial (IA), necesitaban aún más datos.
El recurso a YouTube
OpenAI creó Whisper, un modelo de IA que puede transcribir el audio de videos de YouTube, proporcionando así una gran cantidad de textos para entrenar a su sistema de IA. Se las arreglaron para transcribir un millón de horas de audio de videos de YouTube, utilizando estos datos para seguir perfeccionando su modelo de IA.
Problemas legales
Esta práctica podría violar los derechos de YouTube como plataforma y los de los creadores de contenido en la plataforma. The New York Times afirma que los responsables de OpenAI eran conscientes de las posibles implicaciones legales. Un portavoz de OpenAI declaró a The Verge que la empresa utiliza conjuntos de datos «únicos» para «ayudar a la forma en la que entienden el mundo» y mantener su «competitividad de investigación a nivel global», pero no mencionó específicamente los videos de YouTube.
Otras empresas también utilizan YouTube
Google también ha utilizado un enfoque similar para entrenar sus modelos de IA, como Gemini. Según cinco fuentes consultadas por The New York Times, Google transcribió videos de YouTube para recopilar textos para el entrenamiento de sus modelos. Esto podría violar los derechos de autor de los videos, que pertenecen a sus creadores.
Meta busca alternativas
Meta, la empresa de Mark Zuckerberg, enfrenta los mismos problemas con su modelo de IA llamado Llama 2. The New York Times informa que discutieron la posibilidad de comprar la editorial Simon & Schuster para adquirir textos de alta calidad, además de considerar la recolección de datos protegidos por derechos de autor en internet, aunque esto pudiera llevar a enfrentar demandas judiciales. Negociar licencias con todos los creadores de contenido llevaría demasiado tiempo.
Pagando por licencias
Obtener licencias es otra opción, aunque lleva tiempo. Algunas empresas han optado por pagar por el uso de fuentes de datos sin implicaciones legales. Recientemente, Google pagó una suma considerable a Reddit para utilizar sus contenidos, y OpenAI también ha estado llegando a acuerdos con algunos medios.
Entrenando con datos sintéticos
Las compañías como OpenAI, Google y Meta están explorando una nueva forma de entrenar sus modelos de IA: el uso de datos sintéticos, creados por sus propios modelos de IA. The Wall Street Journal informa que estas empresas esperan usar datos sintéticos de alta calidad para mejorar el rendimiento de sus sistemas de IA. La eficacia de este enfoque de retroalimentación aún está por demostrarse, pero destaca el esfuerzo de las empresas por buscar soluciones creativas a su escasez de datos de entrenamiento.
Imagen | Norwood Themes
En Xataka | Internet tal y como la conocíamos está muriendo: la IA generativa se la está cargando