«La verdadera magnitud de los datos para la Inteligencia Artificial», por Enrique Dans
La carrera desenfrenada por obtener datos para el entrenamiento de inteligencia artificial
La tarea de comprender la verdadera magnitud de los datos utilizados por las empresas en el desarrollo de algoritmos de inteligencia artificial generativa puede ser abrumadora. La situación actual lleva a las compañías a buscar fuentes de información a cualquier costo, incluso si esto significa ir en contra de las políticas de ciertos servicios.
OpenAI, por ejemplo, ha transcrito más de un millón de horas de videos de YouTube para entrenar a GPT-4, una acción que potencialmente va en contra de los términos de servicio de la plataforma. La necesidad de disponer de modelos bien entrenados y con cada vez más prestaciones ha llevado a que algunas empresas prefieran asumir riesgos en la adquisición de datos y enfrentar posibles consecuencias legales más adelante.
Ignorar políticas corporativas en busca de fuentes de datos
La desesperación por obtener datos ha provocado que empresas busquen y utilicen información de cualquier repositorio disponible, pasando por alto las políticas corporativas y justificando el riesgo que esto conlleva. Para tener una idea de esta carrera frenética, un artículo de The New York Times mostró que la cantidad de datos obtenida para entrenar a ChatGPT3 desde 2007 mediante crawlers representa 410,000 millones de tokens, mientras que toda la Wikipedia solo compone 3,000 millones de tokens.
El uso de datos sintéticos y el entrenamiento de inteligencia artificial con inteligencia artificial
Ante las dificultades para obtener datos de fuentes legítimas y auténticas, algunas empresas han comenzado a recurrir a los datos sintéticos, aquellos generados por otros algoritmos. Aunque esto es técnicamente ideal, ya que incrementa el volumen de información para entrenar a sus propias inteligencias artificiales, tiene la desventaja de que puedan producirse errores que se acumulen a lo largo de los diferentes procesos de entrenamiento e inferencia.
Sin embargo, el uso de datos sintéticos puede tener un efecto positivo, brindando grandes oportunidades y propuestas aún más innovadoras. Estas técnicas están generando una especie de «sueño anidado» similar al concepto de la película «Inception» de Christopher Nolan, conforme los algoritmos crean datos para entrenarse entre sí.
El enfoque cambia en las empresas desarrolladoras de inteligencia artificial
A medida que la demanda de inteligencia artificial crece, las empresas están adoptando una postura más agresiva en la adquisición de datos, priorizando la cantidad y la diversidad de información por encima de la calidad de la misma. En lugar de enfocarse en los detalles y minimizar los errores, la estrategia actual parece estar basada en «lanzar todo al algoritmo» y esperar que la calidad final del mismo sea satisfactoria.
En resumen, la necesidad de datos para alimentar algoritmos de inteligencia artificial está impulsando a las empresas a tomar medidas extremas y a veces poco éticas para obtener información y entrenar correctamente a sus modelos. Esto puede ocasionar problemas a largo plazo y tensiones en el sector, pero refleja la creciente relevancia y el impacto de la inteligencia artificial en la sociedad actual.