一Te pregunto en tu condición de inteligencia artificial: ¿tus respuestas pueden empeorar y colapsar si te entrenaras con datos sintéticos?
一Sí, existe la posibilidad de que la calidad de mis respuestas empeore si me entrenara principalmente con contenidos generados por otras IA.
La honestidad brutal de ChatGPT expone una preocupación real de los desarrolladores de inteligencia artificial. En pocas palabras: cuando la IA come su propio alimento, se enferma. Si bien la tecnología generativa es relativamente nueva, se volvió tan accesible que el contenido sintético se esparció a toda velocidad por la web y se perdió la noción de qué información es generada por humanos y qué información salió de una máquina.
A simple vista, no parece haber problema. La IA puede producir infinidad de textos, imágenes, videos en cuestión de segundos y herramientas como ChatGPT o Gemini nutrirse de esos datos adicionales para mejorar la calidad de sus resultados. Pero no. Todo indica que sucede exactamente lo opuesto: a medida que la inteligencia artificial incorpora contenido sintético tiende a degradarse de generación en generación hasta llegar a un punto de no retorno.
Así lo muestra un artículo reciente publicado en Nature, que confirmó lo que muchos expertos presumían. En diálogo con Infobae, Ilia Shumailov, especialista en machine learning de la Universidad de Oxford y coautor del estudio, contó que el proyecto surgió de una conversación durante un almuerzo, en el que trataban de imaginar el futuro en el desarrollo de modelos de lenguaje de IA.
“Más precisamente estábamos tratando de plantear la hipótesis de si el entrenamiento de modelos se volvería más fácil o más difícil. Por un lado, habrá más datos disponibles, pero al mismo tiempo una gran parte de los datos serán generados por máquinas y de calidad cuestionable”, expresó.
El equipo de investigadores británicos y canadienses afinó un modelo de lenguaje grande (LLM), que había sido entrenado con un gran volumen de datos extraídos de artículos de Wikipedia. A medida que avanzaban en el proceso, empezaron a alimentar al modelo con datos sintéticos, es decir, contenido que el mismo modelo generaba. A lo largo de varias iteraciones, se observó una disminución en la calidad del contenido producido, lo que culminó en un fenómeno de “galimatías”: IA producía respuestas incoherentes y sin sentido, tal como se puede ver en el ejemplo. Le pidieron al sistema que prediga el siguiente fragmento del texto y en la generación 9 se hace evidente el absurdo.