Las inteligencias artificiales generativas que se entrenan utilizando datos producidos por otras IA corren el riesgo de generar resultados irrelevantes y sin sentido, según un artículo publicado en la revista Nature.
La investigación subraya la importancia de utilizar datos fiables y de alta calidad para entrenar modelos de IA. El uso de datos generados por IA para este propósito puede, en pocas generaciones, llevar a que la información original sea reemplazada por contenido sin relación, fenómeno conocido como ‘colapso del modelo’.
El estudio, liderado por la Universidad de Oxford, define el ‘colapso del modelo’ como un proceso degenerativo donde los sesgos en los datos de una generación de IA se transmiten a la siguiente, distorsionando la percepción de la realidad de los modelos resultantes.
Un ejemplo destacado en el estudio muestra cómo un texto original sobre arquitectura medieval, al pasar por nueve generaciones de IA, terminó transformado en una lista de liebres norteamericanas. Este caso ilustra cómo los errores y distorsiones pueden amplificarse con cada generación de modelos entrenados con datos de IA anteriores.
Las herramientas de IA generativa, como los grandes modelos lingüísticos (LLM), han ganado popularidad y se entrenan principalmente con datos generados por humanos. Sin embargo, con la proliferación de contenidos generados por ordenador en internet, estos datos pueden terminar siendo utilizados para entrenar nuevas IA, creando un ciclo recursivo.
El estudio advierte que el uso indiscriminado de contenidos generados por modelos en el entrenamiento puede llevar a defectos irreversibles, donde los modelos resultantes no logran captar la totalidad de la distribución original de contenidos.
El equipo de investigadores también demostró que una IA puede ignorar ciertos resultados en los datos de entrenamiento, lo que limita su capacidad de aprendizaje y conduce al colapso del modelo.
Entrenar una IA con datos generados por otra IA no es imposible, pero requiere un riguroso filtrado de esos datos para evitar problemas.
El estudio sugiere que las empresas tecnológicas que utilizan contenidos generados por humanos para entrenar sus modelos de IA pueden tener una ventaja competitiva sobre aquellas que dependen de datos generados por IA.