Escritores deman dan a Nvidia por
la presunta violación de derechos de autor para entrenar IA
Un grupo de autores de libros demandan a Nvidia argumentando que la
plataforma de inteligencia artificial (IA) NeMo, propiedad del
fabricante de chips y empleada para potenciar chatbots
personalizados, fue entrenada a partir de un controvertido conjunto
de datos que copiaba y distribuía ilegalmente sus textos sin el
consentimiento debido.
En una demanda colectiva, los novelistas Abdi Nazemian (Like a Love
Story), Brian Keene (Ghost Walk) y Stewart O'Nan (Last Night at the
Lobster) argumentaron que Nvidia debía pagar una indemnización por
daños y perjuicios, así como destruir todas las copias del conjunto
de datos Books3 utilizado para alimentar los grandes modelos de
lenguaje (LLM, por sus siglas en inglés) basados en NeMo.
El caso contra el uso del paquete datos Book3
Según los novelistas, el
conjunto de datos Books3 copiaba “toda la Bibliotek”, una biblioteca
clandestina de aproximadamente 196,640 libros pirateados.
Inicialmente compartido a través de la comunidad interesada en la IA
del sitio web Hugging Face, el conjunto de datos Books3 “desapareció
y ya no se puede acceder [a él] debido a una infracción de derechos
de autor reportada”, se lee en la página de Hugging Face.
Según los autores, Hugging Face retiró el conjunto de datos en
octubre, pero no antes de que compañías de IA como Nvidia se
apropiaran de él e “hicieran múltiples copias”. Por entrenar modelos
de NeMo con este conjunto, los novelistas sostuvieron que Nvidia
"violó sus derechos exclusivos en virtud de la Ley de Derechos de
Autor [de EE. UU.]". Los autores afirmaron que el tribunal de
distrito de San Francisco debe intervenir y detener a Nvidia porque
la empresa "ha seguido haciendo copias de las Obras infringidas para
entrenar otros modelos".
Un portavoz de Hugging Face aclaró a Ars Thecnica que "Hugging Face
nunca eliminó este conjunto de datos y no alojamos el conjunto de
datos de Books3 en el Hub". En cambio, "Hugging Face alojó un script
que descarga los datos de The Eye, que es el lugar donde Eleuther
alojó los datos", hasta
|
|
que "Eleuther eliminó los datos de
The Eye" por cuestiones de derechos de autor, lo que provocó que el script del
conjunto de datos en Hugging Face se rompiera.
Por su parte, un portavoz de Nvidia dijo al The Wall Street Journal que
"respetamos los derechos de todos los creadores de contenido y somos de la idea
de que creamos NeMo cumpliendo plenamente con la ley de derechos de autor".
Al exigir un juicio con jurado, los autores esperan que el tribunal dictamine
que Nvidia no tiene ninguna defensa posible ante la presunta violación de
derechos de autor y el intento de "causar más infracciones" mediante la
distribución de modelos NeMo "como base a partir de la cual construir más
modelos".
Los modelos de IA reducen la transparencia en medio de demandas
La demanda colectiva fue presentada
por el mismo equipo legal que representa a los autores que demandaron a OpenAI.
El jurado desestimó muchas de las acusaciones de esa demanda recientemente, pero
no la reclamación de infracción directa de derechos de autor. Los abogados
dijeron el mes pasado que los autores modificarían sus quejas contra OpenAI y
que estaban "ansiosos por seguir adelante y litigar" su reclamo por infracción
directa de derechos de autor.
En esa demanda, los escritores alegaron infracción de derechos de autor tanto
cuando OpenAI capacitó a su LLM como cuando los chatbots hicieron referencia a
libros en los resultados. Pero los autores parecían más preocupados por los
supuestos daños causados por los resultados de los chatbots, advirtiendo que las
herramientas de inteligencia artificial tenían una "extraña capacidad para
generar texto similar al que se encuentra en materiales textuales protegidos por
derechos de autor, incluidos miles de libros".
En la demanda de Nvidia, los escritores se centran exclusivamente en los datos
de entrenamiento de Nvidia, aparentemente preocupados de que Nvidia facilite a
las empresas crear cualquier número de modelos de IA con el controvertido
paquete de datos, lo que podría afectar a miles de autores cuyos trabajos
supuestamente podrían ser infringidos simplemente por entrenar estos modelos.
Aún no se sabe cómo los tribunales
se pronunciarán sobre los reclamos directos de derechos de autor en cualquiera
de las demandas (o en la demanda del New York Times contra OpenAI ) pero, hasta
ahora, OpenAI no ha logrado convencer a los tribunales de que desestimen los
reclamos.
Sin embargo, OpenAI no parece muy afectado por las demandas. En febrero, la
compañía dijo que esperaba vencer el reclamo de infracción directa de derechos
de autor de los escritores en |
|
una "etapa posterior" del caso y,
más recientemente, en el caso del New York Times, trató de convencer al tribunal
de que el periódico había "hackeado" ChatGPT para "elaborar" la demanda.
Y Microsoft, coacusado en la demanda del NYT, presentó incluso más recientemente
un nuevo argumento que podría ayudar a las empresas de tecnología a derrotar las
demandas por derechos de autor sobre los LLM. El mes pasado, Microsoft argumentó
que The New York Times estaba intentando detener una "nueva tecnología
innovadora" y que fracasaría, como fracasaron los productores de películas que
intentaron acabar con la videocasetera en los años 80.
En diciembre, Yacine Jernite, líder social y de aprendizaje automático de
Hugging Face, señaló que los desarrolladores se habían vuelto menos
transparentes sobre los datos de entrenamiento después de que las demandas por
derechos de autor generaran señales de alerta sobre las empresas que utilizan el
conjunto de datos Books3, "especialmente para modelos comerciales".
Meta, por ejemplo, "limitó la cantidad de información [que] reveló sobre" su LLM,
Llama-2, "a una descripción de un solo párrafo y una página adicional de
análisis de seguridad y sesgo, después del uso del conjunto de datos Books3
cuando la cuestión sobre el entrenamiento del primer modelo Llama surgió en una
demanda por derechos de autor", escribió Jernite.
Jernite advirtió que los modelos de IA que carecen de transparencia podrían
obstaculizar "la capacidad de que las salvaguardias regulatorias sigan siendo
relevantes a medida que evolucionan los métodos de capacitación, de los
individuos para garantizar que se respeten sus derechos y de que la ciencia y el
desarrollo abiertos desempeñen su papel para permitir la gobernanza democrática
de las nuevas tecnologías". ". Para respaldar una "mayor responsabilidad",
Jernite recomendó "estándares mínimos significativos de transparencia pública
para respaldar una regulación efectiva de la IA", así como que las empresas
brinden opciones para que cualquiera pueda optar por no incluir sus datos en los
datos de capacitación.
Jernite advierte que la falta de transparencia de los desarrolladores podría
poner el riesgo el derecho de que los creadores velen por sus derechos, así como
la gobernanza de una tecnología en pleno desarrollo. "Una mayor transparencia de
los datos respalda una mejor gobernanza y fomenta el desarrollo de tecnología
que respete de manera más confiable los derechos de las personas", concluye. |