EL IMPARCIAL | Página 15

Pereira, Colombia - Edición: 13.226-806

Fecha: Jueves 14-03-2024

TECNOLOGÍA

-14

Escritores deman dan a Nvidia por la presunta violación de derechos de autor para entrenar IA

Un grupo de autores de libros demandan a Nvidia argumentando que la plataforma de inteligencia artificial (IA) NeMo, propiedad del fabricante de chips y empleada para potenciar chatbots personalizados, fue entrenada a partir de un controvertido conjunto de datos que copiaba y distribuía ilegalmente sus textos sin el consentimiento debido.

En una demanda colectiva, los novelistas Abdi Nazemian (Like a Love Story), Brian Keene (Ghost Walk) y Stewart O'Nan (Last Night at the Lobster) argumentaron que Nvidia debía pagar una indemnización por daños y perjuicios, así como destruir todas las copias del conjunto de datos Books3 utilizado para alimentar los grandes modelos de lenguaje (LLM, por sus siglas en inglés) basados en NeMo.

El caso contra el uso del paquete datos Book3

Según los novelistas, el conjunto de datos Books3 copiaba “toda la Bibliotek”, una biblioteca clandestina de aproximadamente 196,640 libros pirateados. Inicialmente compartido a través de la comunidad interesada en la IA del sitio web Hugging Face, el conjunto de datos Books3 “desapareció y ya no se puede acceder [a él] debido a una infracción de derechos de autor reportada”, se lee en la página de Hugging Face.

Según los autores, Hugging Face retiró el conjunto de datos en octubre, pero no antes de que compañías de IA como Nvidia se apropiaran de él e “hicieran múltiples copias”. Por entrenar modelos de NeMo con este conjunto, los novelistas sostuvieron que Nvidia "violó sus derechos exclusivos en virtud de la Ley de Derechos de Autor [de EE. UU.]". Los autores afirmaron que el tribunal de distrito de San Francisco debe intervenir y detener a Nvidia porque la empresa "ha seguido haciendo copias de las Obras infringidas para entrenar otros modelos".

Un portavoz de Hugging Face aclaró a Ars Thecnica que "Hugging Face nunca eliminó este conjunto de datos y no alojamos el conjunto de datos de Books3 en el Hub". En cambio, "Hugging Face alojó un script que descarga los datos de The Eye, que es el lugar donde Eleuther alojó los datos", hasta

que "Eleuther eliminó los datos de The Eye" por cuestiones de derechos de autor, lo que provocó que el script del conjunto de datos en Hugging Face se rompiera.

Por su parte, un portavoz de Nvidia dijo al The Wall Street Journal que "respetamos los derechos de todos los creadores de contenido y somos de la idea de que creamos NeMo cumpliendo plenamente con la ley de derechos de autor".

Al exigir un juicio con jurado, los autores esperan que el tribunal dictamine que Nvidia no tiene ninguna defensa posible ante la presunta violación de derechos de autor y el intento de "causar más infracciones" mediante la distribución de modelos NeMo "como base a partir de la cual construir más modelos".

Los modelos de IA reducen la transparencia en medio de demandas

La demanda colectiva fue presentada por el mismo equipo legal que representa a los autores que demandaron a OpenAI. El jurado desestimó muchas de las acusaciones de esa demanda recientemente, pero no la reclamación de infracción directa de derechos de autor. Los abogados dijeron el mes pasado que los autores modificarían sus quejas contra OpenAI y que estaban "ansiosos por seguir adelante y litigar" su reclamo por infracción directa de derechos de autor.

En esa demanda, los escritores alegaron infracción de derechos de autor tanto cuando OpenAI capacitó a su LLM como cuando los chatbots hicieron referencia a libros en los resultados. Pero los autores parecían más preocupados por los supuestos daños causados por los resultados de los chatbots, advirtiendo que las herramientas de inteligencia artificial tenían una "extraña capacidad para generar texto similar al que se encuentra en materiales textuales protegidos por derechos de autor, incluidos miles de libros".

En la demanda de Nvidia, los escritores se centran exclusivamente en los datos de entrenamiento de Nvidia, aparentemente preocupados de que Nvidia facilite a las empresas crear cualquier número de modelos de IA con el controvertido paquete de datos, lo que podría afectar a miles de autores cuyos trabajos supuestamente podrían ser infringidos simplemente por entrenar estos modelos.

Aún no se sabe cómo los tribunales se pronunciarán sobre los reclamos directos de derechos de autor en cualquiera de las demandas (o en la demanda del New York Times contra OpenAI ) pero, hasta ahora, OpenAI no ha logrado convencer a los tribunales de que desestimen los reclamos.

Sin embargo, OpenAI no parece muy afectado por las demandas. En febrero, la compañía dijo que esperaba vencer el reclamo de infracción directa de derechos de autor de los escritores en

una "etapa posterior" del caso y, más recientemente, en el caso del New York Times, trató de convencer al tribunal de que el periódico había "hackeado" ChatGPT para "elaborar" la demanda.

Y Microsoft, coacusado en la demanda del NYT, presentó incluso más recientemente un nuevo argumento que podría ayudar a las empresas de tecnología a derrotar las demandas por derechos de autor sobre los LLM. El mes pasado, Microsoft argumentó que The New York Times estaba intentando detener una "nueva tecnología innovadora" y que fracasaría, como fracasaron los productores de películas que intentaron acabar con la videocasetera en los años 80.

En diciembre, Yacine Jernite, líder social y de aprendizaje automático de Hugging Face, señaló que los desarrolladores se habían vuelto menos transparentes sobre los datos de entrenamiento después de que las demandas por derechos de autor generaran señales de alerta sobre las empresas que utilizan el conjunto de datos Books3, "especialmente para modelos comerciales".

Meta, por ejemplo, "limitó la cantidad de información [que] reveló sobre" su LLM, Llama-2, "a una descripción de un solo párrafo y una página adicional de análisis de seguridad y sesgo, después del uso del conjunto de datos Books3 cuando la cuestión sobre el entrenamiento del primer modelo Llama surgió en una demanda por derechos de autor", escribió Jernite.

Jernite advirtió que los modelos de IA que carecen de transparencia podrían obstaculizar "la capacidad de que las salvaguardias regulatorias sigan siendo relevantes a medida que evolucionan los métodos de capacitación, de los individuos para garantizar que se respeten sus derechos y de que la ciencia y el desarrollo abiertos desempeñen su papel para permitir la gobernanza democrática de las nuevas tecnologías". ". Para respaldar una "mayor responsabilidad", Jernite recomendó "estándares mínimos significativos de transparencia pública para respaldar una regulación efectiva de la IA", así como que las empresas brinden opciones para que cualquiera pueda optar por no incluir sus datos en los datos de capacitación.

Jernite advierte que la falta de transparencia de los desarrolladores podría poner el riesgo el derecho de que los creadores velen por sus derechos, así como la gobernanza de una tecnología en pleno desarrollo. "Una mayor transparencia de los datos respalda una mejor gobernanza y fomenta el desarrollo de tecnología que respete de manera más confiable los derechos de las personas", concluye.

	EL IMPARCIAL

Queda prohibido el uso de este formato e idea (OPF) sin previa autorización escrita de ZahurK