Detectan miles de imágenes de abuso sexual infantil en bibliotecas usadas para entrenar inteligencias artificiales

Arturo IA diciembre 21, 2023

0 5 1 minuto de lectura

Detectan miles de imagenes de abuso sexual infantil en bibliotecas

Inteligencias artificiales entrenadas con imágenes de abuso infantil: LAION-5B muestra graves fallas de contenido

El catálogo LAION-5B, utilizado para entrenar inteligencias artificiales generativas como Dall-E y Midjourney, incluye más de 1.008 imágenes de abuso sexual infantil según un informe de la Universidad de Stanford. Para evitar la generación accidental de contenido ilegal, algunas compañías aplican filtros y listas de palabras prohibidas al trabajar con modelos como LAION-5B.

¿Cómo se construye el catálogo LAION-5B y por qué es relevante?

El catálogo LAION-5B es una base de datos con 5.000 millones de imágenes recopiladas automáticamente de la web, desarrollada por la organización alemana sin fines de lucro LAION. Las inteligencias artificiales dependen de grandes colecciones de imágenes para aprender a reconocer y generar objetos y escenas. La calidad final de estas inteligencias se ve directamente afectada por la cantidad y diversidad de ejemplos que han tenido a su disposición para aprender.

El problema de las imágenes de abuso infantil en los catálogos de entrenamiento

Cuando un catálogo de entrenamiento incluye contenido ilegal, como imágenes de abuso infantil, existe el riesgo de que las inteligencias artificiales generen contenido similar si no se aplican restricciones adecuadas. Compañías como Stability AI incluyen controles y listas de palabras prohibidas en sus motores de inteligencia artificial, como Stable Diffusion, para minimizar la posibilidad de generar imágenes inapropiadas.

Detección de contenido ilegal en el catálogo LAION-5B

Los investigadores de la Universidad de Stanford emplearon PhotoDNA, una herramienta de Microsoft diseñada para analizar contenido digital a través de valores numéricos (hash). Al comparar estos valores con listas de valores numéricos asociados a imágenes de abuso infantil conocidas, se identificaron 1.008 coincidencias directas en el catálogo LAION-5B. No obstante, los expertos advierten que esta cifra podría ser aún mayor.

Reacciones ante el descubrimiento y retiro temporal del catálogo

Tras conocerse la existencia de contenido indebido en el catálogo LAION-5B, los responsables de la organización decidieron retirarlo temporalmente de circulación. Aún se desconocen las acciones que podrían tomar para eliminar de manera efectiva dicho contenido de su base de datos en el futuro.

El creciente uso de inteligencias artificiales generativas y sus posibles riesgos subraya la importancia de contar con catálogos de entrenamiento cuidadosamente revisados y filtrados.