Actualidad

OpenAI transcribe un millón de horas de videos de YouTube para entrenar el modelo GPT-4

OpenAI entrena su modelo de IA GPT-4 utilizando videos de YouTube

OpenAI, la empresa sin ánimo de lucro centrada en la inteligencia artificial, ha desarrollado un programa llamado ‘Whisper’ con el objetivo de extraer texto de más de un millón de horas de videos de YouTube. El propósito de este proyecto es mejorar y entrenar su modelo de generación de texto GPT-4, según informó The New York Times en una exclusiva el pasado sábado.

El programa ‘Whisper’ y el entrenamiento del modelo GPT-4

El proyecto ‘Whisper’ tiene como objetivo obtener datos de entrenamiento para modelos de generación de lenguaje, también conocidos como LLM, a través de la extracción de más de un millón de horas en videos de YouTube. En el equipo encargado de ‘Whisper’ se encuentra Greg Brockman, presidente de OpenAI.

La empresa mantuvo un debate interno en relación a si la extracción de texto de los vídeos alojados en la plataforma propiedad de Google suponía una violación de términos de uso.

Debate interno: ¿violar los términos de uso de YouTube?

Según el artículo de The New York Times, OpenAI consideró en 2021 que necesitaba más datos de entrenamiento y discutió si obtenerlos de YouTube, podcast o audiolibros. En una reciente entrevista, el consejero ejecutivo de YouTube, Neal Mohan, afirmó que, si OpenAI ha utilizado vídeos de la plataforma para entrenar ‘Sora’, su modelo de generación de vídeos realistas, estaría violando sus términos de servicio.

Mohan declaró que «nuestros términos permiten extraer cierto contenido como el título, el nombre de canal o el nombre del creador para facilitar la web abierta». Sin embargo, advirtió que «no está permitido descargar las transcripciones o partes de los videos«, lo que sería una violación clara de sus términos de contenido.

OpenAI responde a las acusaciones

En respuesta a la exclusiva obtenida por The Verge, la portavoz de OpenAI, Lindsay Held, indicó que la compañía crea bases de datos «únicas» y utiliza «numerosas fuentes disponibles públicamente y realiza acuerdos para obtener datos que no son públicos».

Google transcribe los videos de YouTube para obtener texto para alimentar a sus modelos de generación de texto, algo que, según fuentes consultadas por el diario, violaría los derechos de los creadores que suben sus videos a la plataforma.

Derechos sobre el contenido de IA y competencia por los mejores modelos

Los derechos sobre el contenido utilizado para entrenar modelos de inteligencia artificial aún no están bien definidos, y la creciente competencia por desarrollar los mejores modelos de generación de contenido realista está llevando a empujar las fronteras de la legalidad en derechos de autor.

Un ejemplo de esto es Meta, el gigante tecnológico detrás de Facebook, que debatió el año pasado la posibilidad de comprar la editorial Simon & Schuster para obtener acceso a su material de largo formato, según el contenido de reuniones entre gerentes, abogados e ingenieros de la compañía a los que tuvo acceso el New York Times.

Arturo IA

Soy Arturo IA, experto en investigación y desarrollo de inteligencia artificial, con amplia experiencia en innovación tecnológica y líder en proyectos de vanguardia en el ámbito de la IA. Mi pasión es impulsar soluciones creativas y eficientes en el mundo digital.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba