Acusan a Nvidia de violar derechos de autor de varios libros durante el entrenamiento de NeMo Megatron LLM – Tecnología
Autoría intelectual de obras literarias en entredicho por plataforma de AI de Nvidia
Un grupo de escritores ha interpuesto una demanda colectiva contra la empresa tecnológica Nvidia, alegando que la compañía violó sus derechos de autor al entrenar los Modelos de Lenguaje a Gran Escala (LLM, según sus siglas en inglés) en los que se basa su plataforma NeMo Megatron.
NeMo: herramienta de IA conversacional creada por Nvidia
Nvidia NeMo es un conjunto de herramientas de Inteligencia Artificial (IA) conversacional diseñadas para investigadores que trabajan en el reconocimiento automático de voz (ASR), el procesamiento de lenguaje natural (NLP) y la síntesis de texto a voz (TTS). NeMo Megatron, una de estas herramientas, es una plataforma de nivel empresarial que permite seleccionar datos de entrenamiento, entrenar modelos a gran escala con billones de parámetros e implementarlos en inferencia. La plataforma admite actualmente tres tipos de LLM: GPT, T5/BART y BERT.
Demandantes alegan violación de derechos de autor
Los escritores Abdi Nazemian, Brian Keene y Stewart O’Nan han presentado una demanda colectiva contra Nvidia, sosteniendo que la compañía utilizó sus obras protegidas por derechos de autor para entrenar NeMo Megatron. Las LLM se almacenan en el sitio web de Hugging Face, que ofrece información sobre cada uno y especifica los conjuntos de datos empleados para su entrenamiento.
The Pile como fuente de entrenamiento para NeMo Megatron
Uno de los conjuntos de datos utilizados para el entrenamiento es The Pile, desarrollado por EleutherAI, que incluye a su vez el archivo Books3. Este archivo contiene una copia del rastreador Bibliotik, que alberga una combinación de libros de ficción y no ficción. La biblioteca de contenido abarca 108 GB de datos, compuesta por un total de 196.640 libros, entre los cuales se encuentran obras de los demandantes.
Falta de autorización para el uso de las obras
Según la demanda, los escritores nunca otorgaron permiso a Nvidia para copiar, exhibir o distribuir públicamente sus obras, ya que estos derechos de autor les pertenecen exclusivamente, de acuerdo con la regulación de ‘copyright’ en Estados Unidos. Aunque Hugging Face eliminó estos repositorios en octubre de 2020, se alega en el documento que Nvidia realizó múltiples copias de las obras infringidas.
Demanda por daños y perjuicios
Los autores sostienen que han sido perjudicados por los actos de infracción directa de derechos de autor de Nvidia y, por lo tanto, tienen derecho a indemnización por daños legales, daños reales, restitución de ganancias y otros recursos. En respuesta a la demanda, presentada en el Distrito Norte de California (EE.UU.), Nvidia ha afirmado que su plataforma NeMo se crea cumpliendo con la ley de derechos de autor, según informa The Wall Street Journal.