Los datos sintéticos: ¿Solución o
problema para entrenar IA?
Los datos sintéticos han emergido como una solución popular para
entrenar modelos de inteligencia artificial (IA), pero una
investigación reciente de la Universidad de Oxford ha revelado
problemas significativos con esta práctica. El estudio muestra que
el uso recurrente de datos sintéticos puede "envenenar" los
algoritmos, alterando su percepción de la realidad y degradando su
desempeño.
El equipo de Oxford evaluó tres modelos GPT de OpenAI entrenados con
datos generados por versiones anteriores de la misma familia de
modelos. Compararon estos resultados con los obtenidos usando el
dataset original wikitext2. Descubrieron que los modelos colapsan
tras ser entrenados repetidamente con datos sintéticos, produciendo
resultados sesgados y basados en interpretaciones erróneas de la
realidad debido a errores acumulados. En una prueba, los modelos
debían generar un texto sobre arquitectura medieval. Mientras el
modelo entrenado con datos originales respondió coherentemente,
después de nueve ciclos de entrenamiento con datos sintéticos, la
salida fue una lista de conejos. Esto demuestra que la IA pierde
información crítica, ya que no está claro si los datos cubren todos
los casos posibles, lo que lleva a un "envenenamiento" progresivo de
los modelos.
El estudio advierte que esta
condición compromete la
fiabilidad de la IA, generando riesgos en los ámbitos donde se
utiliza la tecnología. Víctor Etxebarria, catedrático de la
Universidad del País Vasco, subraya que los datos sintéticos pueden
convertir a la IA en una herramienta
|
|
poco fiable y potencialmente
nociva, ya que decisiones basadas en información incorrecta pueden tener
consecuencias significativas. Los autores destacan la importancia del intelecto
humano en la era de la IA, insistiendo en que es crucial tomar en serio el
colapso de los modelos para mantener los beneficios de la capacitación a gran
escala con datos genuinos. El valor de las interacciones humanas auténticas con
los sistemas será cada vez más relevante en un entorno dominado por material
generado por grandes modelos de lenguaje.
Andreas Kaltenbrunner, de la Universidad Abierta de Catalunya, reconoce el valor
del estudio, aunque señala que sus conclusiones son teóricas, ya que asumen que
los futuros modelos de IA se entrenarán exclusivamente con datos sintéticos.
Kaltenbrunner plantea interrogantes sobre los resultados de mezclar datos
generados por humanos con datos generados por IA, así como sobre la
incorporación de información híbrida, generada conjuntamente por máquinas y
humanos.
Los analistas pronostican que el sector de la IA está cerca de agotar la
información de entrenamiento disponible públicamente en internet. La mayoría de
los materiales accesibles estarán detrás de muros de pago o sujetos a acuerdos
exclusivos de uso. La Data Provenance Initiative del Instituto de Tecnología de
Massachusetts alerta sobre
|
|
una "crisis emergente
en el consentimiento de uso", ya que los editores y plataformas en
línea están imponiendo restricciones más estrictas para evitar que sus
contenidos sean utilizados para entrenar modelos como Gemini o GPT. Como
resultado, se ha restringido el acceso al 5% de los contenidos que antes eran
públicos y el 25% de los datos de mayor calidad se ha vuelto inaccesible.
Empresas
como OpenAI y Google han intentado abordar la falta de datos públicos de calidad
con datos sintéticos. Sin embargo, la fiabilidad de este enfoque está en
entredicho. La investigación de Oxford pone de manifiesto las limitaciones y
riesgos de depender demasiado de datos sintéticos, sugiriendo que la solución no
es tan simple como generar más datos artificiales.
El estudio de Oxford subraya la necesidad de una estrategia equilibrada que
combine datos genuinos y sintéticos de manera cuidadosa para evitar el
"envenenamiento" de los modelos de IA. La confianza en la capacidad de la IA
para ofrecer resultados precisos y útiles depende de la calidad de los datos
utilizados para su entrenamiento. A medida que la tecnología avanza, es
fundamental seguir investigando y desarrollando métodos que aseguren la
integridad y la fiabilidad de los algoritmos de IA.
En resumen, aunque los datos sintéticos ofrecen una solución potencial a la
escasez de datos, su uso excesivo y sin control puede comprometer gravemente la
eficacia de los modelos de IA. La investigación de Oxford sirve como una llamada
de atención para la comunidad de IA, instando a una mayor prudencia y un enfoque
más equilibrado en el entrenamiento de algoritmos. La colaboración continua
entre humanos y máquinas será clave para desarrollar sistemas de IA robustos y
fiables en el futuro.
|