Pereira, Colombia - Edición: 13.302-802

Fecha: Sábado 27-07-2024

 

 TECNOLOGÍA

 

-14

 

Los datos sintéticos: ¿Solución o problema para entrenar IA?



Los datos sintéticos han emergido como una solución popular para entrenar modelos de inteligencia artificial (IA), pero una investigación reciente de la Universidad de Oxford ha revelado problemas significativos con esta práctica. El estudio muestra que el uso recurrente de datos sintéticos puede "envenenar" los algoritmos, alterando su percepción de la realidad y degradando su desempeño.

El equipo de Oxford evaluó tres modelos GPT de OpenAI entrenados con datos generados por versiones anteriores de la misma familia de modelos. Compararon estos resultados con los obtenidos usando el dataset original wikitext2. Descubrieron que los modelos colapsan tras ser entrenados repetidamente con datos sintéticos, produciendo resultados sesgados y basados en interpretaciones erróneas de la realidad debido a errores acumulados. En una prueba, los modelos debían generar un texto sobre arquitectura medieval. Mientras el modelo entrenado con datos originales respondió coherentemente, después de nueve ciclos de entrenamiento con datos sintéticos, la salida fue una lista de conejos. Esto demuestra que la IA pierde información crítica, ya que no está claro si los datos cubren todos los casos posibles, lo que lleva a un "envenenamiento" progresivo de los modelos.

El estudio advierte que esta
condición compromete la fiabilidad de la IA, generando riesgos en los ámbitos donde se utiliza la tecnología. Víctor Etxebarria, catedrático de la Universidad del País Vasco, subraya que los datos sintéticos pueden convertir a la IA en una herramienta

 

 

 

 poco fiable y potencialmente nociva, ya que decisiones basadas en información incorrecta pueden tener consecuencias significativas. Los autores destacan la importancia del intelecto humano en la era de la IA, insistiendo en que es crucial tomar en serio el colapso de los modelos para mantener los beneficios de la capacitación a gran escala con datos genuinos. El valor de las interacciones humanas auténticas con los sistemas será cada vez más relevante en un entorno dominado por material generado por grandes modelos de lenguaje.
 


Andreas Kaltenbrunner, de la Universidad Abierta de Catalunya, reconoce el valor del estudio, aunque señala que sus conclusiones son teóricas, ya que asumen que los futuros modelos de IA se entrenarán exclusivamente con datos sintéticos. Kaltenbrunner plantea interrogantes sobre los resultados de mezclar datos generados por humanos con datos generados por IA, así como sobre la incorporación de información híbrida, generada conjuntamente por máquinas y humanos.



Los analistas pronostican que el sector de la IA está cerca de agotar la información de entrenamiento disponible públicamente en internet. La mayoría de los materiales accesibles estarán detrás de muros de pago o sujetos a acuerdos exclusivos de uso. La Data Provenance Initiative del Instituto de Tecnología de Massachusetts alerta sobre 
 

 

 

 

una "crisis emergente en el consentimiento de uso", ya que los editores y plataformas en línea están imponiendo restricciones más estrictas para evitar que sus contenidos sean utilizados para entrenar modelos como Gemini o GPT. Como resultado, se ha restringido el acceso al 5% de los contenidos que antes eran públicos y el 25% de los datos de mayor calidad se ha vuelto inaccesible.

 

Empresas como OpenAI y Google han intentado abordar la falta de datos públicos de calidad con datos sintéticos. Sin embargo, la fiabilidad de este enfoque está en entredicho. La investigación de Oxford pone de manifiesto las limitaciones y riesgos de depender demasiado de datos sintéticos, sugiriendo que la solución no es tan simple como generar más datos artificiales.

El estudio de Oxford subraya la necesidad de una estrategia equilibrada que combine datos genuinos y sintéticos de manera cuidadosa para evitar el "envenenamiento" de los modelos de IA. La confianza en la capacidad de la IA para ofrecer resultados precisos y útiles depende de la calidad de los datos utilizados para su entrenamiento. A medida que la tecnología avanza, es fundamental seguir investigando y desarrollando métodos que aseguren la integridad y la fiabilidad de los algoritmos de IA.



En resumen, aunque los datos sintéticos ofrecen una solución potencial a la escasez de datos, su uso excesivo y sin control puede comprometer gravemente la eficacia de los modelos de IA. La investigación de Oxford sirve como una llamada de atención para la comunidad de IA, instando a una mayor prudencia y un enfoque más equilibrado en el entrenamiento de algoritmos. La colaboración continua entre humanos y máquinas será clave para desarrollar sistemas de IA robustos y fiables en el futuro.

 

 

  

 

 

EL IMPARCIAL

Submit

 

 

© El Imparcial Editores S.A.S  |   Contacto 57 606 348 6207  

 

    © 1948-2009 - 2024 - El Imparcial - La idea y concepto de este periódico fue hecho en Online Periodical Format (OPF) que es un Copyright de ZahurK.

    Queda prohibido el uso de este formato e idea (OPF) sin previa autorización escrita de ZahurK