El entrenamiento de sistemas de inteligencia artificial se ha convertido en uno de los puntos más conflictivos del derecho de autor. Las resoluciones judiciales recientes ofrecen respuestas divergentes sobre cómo debe tratarse el uso de obras protegidas para entrenar modelos de IA, generando una creciente inseguridad jurídica que afecta de lleno a desarrolladores tecnológicos y empresas que utilizan herramientas de IA en su actividad diaria.

La sentencia del Tribunal Regional de Múnich en el asunto GEMA vs. OpenAI ha reavivado dicho debate. El tribunal alemán analiza el funcionamiento técnico del sistema y lo descompone en tres fases: la recopilación y preparación de las obras utilizadas como datasets, el proceso de entrenamiento propiamente dicho y, finalmente, la generación de resultados a partir de prompts una vez el modelo ya ha sido entrenado. Esta distinción no es meramente descriptiva. Permite al tribunal identificar en qué momento se produce la infracción de derechos de autor.

Según la resolución, el acto jurídicamente relevante no se limita al resultado final que ofrece la IA. La infracción se vincula principalmente a la fase de entrenamiento, cuando el modelo analiza y memoriza obras protegidas, incorporándolas de forma que pueden llegar a ser reproducidas posteriormente. El tribunal considera acreditado que, en algunos casos, las letras de canciones protegidas seguían siendo reconocibles en las respuestas generadas por el sistema, lo que supone no solo una reproducción, sino también una puesta a disposición del público. Desde esta perspectiva, el entrenamiento es un auténtico acto de explotación que exige autorización del titular de los derechos.

La sentencia va un paso más allá al rechazar expresamente la aplicación de las excepciones de minería de textos y datos. Para el tribunal alemán, estas excepciones dejan de ser operativas cuando el sistema memoriza las obras y es capaz de reproducirlas, aunque sea parcialmente. El foco del análisis no está únicamente en si la IA genera copias literales, sino en el uso previo de las obras durante el aprendizaje del modelo. Incluso cuando el resultado final no reproduce de forma idéntica el contenido protegido, el entrenamiento ya ha implicado un acto de reproducción jurídicamente relevante.

Este enfoque contrasta de manera clara con el adoptado por el High Court of Justice del Reino Unido en el conocido caso Getty Images vs. Stability AI. Aquí, el tribunal británico centra su análisis en la naturaleza de los parámetros aprendidos del modelo, los llamados model weights. A juicio de la High Court, estos valores matemáticos no almacenan ni reproducen las obras protegidas, lo que impide calificarlos como copias infractoras. En consecuencia, desestima la mayoría de las reclamaciones de Getty al considerar que el modelo no había copiado las imágenes, sino que había aprendido patrones estadísticos.

Además, el tribunal británico introduce un elemento clave: la territorialidad. Getty no pudo acreditar que el entrenamiento del modelo se hubiera producido en el Reino Unido, requisito indispensable para la aplicación de la normativa británica de copyright. Esta circunstancia impidió que el tribunal entrara a valorar en profundidad si el propio entrenamiento podía constituir una infracción. De hecho, la resolución deja abierta la puerta a que el análisis hubiera sido distinto de haberse demostrado ese extremo. La única infracción apreciada fue la relativa a la marca registrada, debido a la aparición de marcas de agua de Getty en algunas imágenes generadas, lo que amplía el foco del riesgo jurídico más allá del derecho de autor y pone de relieve la posible relevancia de otros ámbitos, como el derecho de marcas, competencia desleal y protección del consumidor.

Al otro lado del Atlántico, el enfoque es sensiblemente distinto. En Estados Unidos, el debate sobre el entrenamiento de modelos de IA se articula en torno a la doctrina del fair use. Los tribunales analizan el propósito y carácter del uso (incluyendo si es transformador), la naturaleza de las obras empleadas, la cantidad y sustancialidad del contenido utilizado y el impacto sobre el mercado de la obra original. En casos como Bartz v. Anthropic, se ha otorgado especial relevancia a la finalidad del entrenamiento, entendiendo que el uso de libros protegidos obtenidos legalmente para entrenar un modelo persigue un objetivo funcionalmente distinto del de la obra original y no está orientado a su explotación expresiva. Del mismo modo, en decisiones como Kadrey v. Meta, se ha subrayado que el entrenamiento puede quedar amparado por el fair use cuando no existe una afectación demostrable del mercado de la obra, estableciendo, no obstante, un límite claro: el uso de copias ilícitas o no autorizadas queda fuera de esta protección.

La comparación entre estas jurisdicciones revela una fragmentación evidente, con consecuencias directas para las empresas que operan en la Unión Europea. Según la tendencia jurisprudencial alemana no resultaría suficiente confiar en que la IA no reproduzca de forma literal contenidos protegidos para descartar riesgos legales. En particular, cuando el proceso de entrenamiento no se limita al análisis, sino que incorpora obras protegidas de forma duradera en el modelo, de modo que puedan ser reproducidas posteriormente mediante simples prompts, dicho entrenamiento puede constituir un acto de reproducción que exige autorización del titular de los derechos, sin que la ausencia de reproducciones literales en los resultados finales sea, por sí sola, determinante. Este planteamiento obliga a replantear prácticas y a revisar en profundidad la composición de los datasets, su origen y las licencias asociadas.

La divergencia de criterios entre jurisdicciones, unida a la dimensión económica y tecnológica de estos sistemas, hace muy probable que la cuestión termine siendo analizada por instancias europeas superiores, llamadas a pronunciarse sobre la necesidad de armonizar el tratamiento jurídico del entrenamiento de modelos de inteligencia artificial en el ámbito del derecho de autor. Hasta que esa clarificación se produzca, el escenario seguirá siendo fragmentado y exigente, especialmente para quienes desarrollan o utilizan soluciones de IA en un entorno transfronterizo.

Así, a la luz de la jurisprudencia alemana, el mensaje es claro: el entrenamiento de modelos no es una fase invisible desde el punto de vista jurídico y se convierte en uno de los principales focos. Para el sector, comprender este cambio resulta esencial. Los criterios jurisprudenciales aún se están consolidando y el marco regulatorio evoluciona con rapidez. Lo que está ahora en juego es cómo integrar estos riesgos en la toma de decisiones estratégicas en un entorno donde la diligencia, la trazabilidad y el control sobre los datos utilizados se han vuelto elementos centrales de cualquier estrategia tecnológica sólida.

Por Jaime Contreras, asociado Fourlaw Abogados.

Artículo publicado en El Confidencial.

Share This