IA et œuvres patrimoniales : vers un marché de la donnée certifiée ?
Auteurs
Les annonces récentes du gouvernement britannique pourraient bien marquer un tournant dans l'économie de la connaissance en matière culturelle : douze institutions publiques de tout premier plan s'engagent dans un projet visant à sécuriser et à monétiser leurs archives numériques auprès des développeurs d'intelligence artificielle. Ce projet, intégré au programme d'accélération de la recherche et du développement du Royaume-Uni et baptisé Creative Content Exchange (CCE), dessine les contours d'un nouveau marché de la donnée culturelle.
Un laboratoire pour l'économie de la donnée culturelle
Le projet, porté par l’État (ministère de la culture (DCMS) et le UK Research and innovation (UKRI), ne se contente pas d’être une simple marketplace ; il se veut une infrastructure de confiance pour le licensing, pour transformer le patrimoine numérisé en un actif négociable et auditable. L’objectif est clair : garantir des contenus dits "copyright-cleared", là où le Web actuel n’offre qu'un scraping contesté.
Le pilote, attendu pour l'été 2026, mobilise douze institutions majeures (leading cultural institutions, dont The National Archives, V&A Museum, Oxford University, Science Museum Group, la National Portrait Gallery) dans le domaine des musées/archives/bibliothèques/collections scientifiques. Ce montage porte un message fort : si la performance d'un modèle d'IA dépend de la qualité de ses données d'entraînement, alors l'accès à ces données doit être organisé, traçable et rémunéré. L’objectif est donc de transformer ces institutions en fournisseurs officiels et rémunérés pour l’entraînement des modèles de langage (LLM) et des IA génératrices d'images. Plutôt que de laisser les entreprises technologiques aspirer les contenus disponibles en ligne, le gouvernement britannique souhaite structurer un "marché de confiance" dans une logique gagnant-gagnant.
Ce projet pourrait faciliter la formation du prix par le rapprochement de l’offre et de la demande, la réalisation de transactions financières et sans doute une forme de « juste rémunération ». Il s'agit aussi de tester des modèles de licences innovants et une plateforme technique, dont le lancement est prévu d’ici l'été 2026, qui facilitera l'accès contrôlé aux ressources numérisées à grande échelle. Pour les institutions participantes, l'enjeu est double : générer des revenus propres dans un contexte budgétaire contraint et s'assurer que leurs données, souvent d'une qualité scientifique ou historique exceptionnelle, servent à produire des IA plus fiables.
Des enjeux juridiques complexes
Outre sa mise en œuvre concrète, l'initiative soulève des questions juridiques délicates que le Conseil supérieur de la propriété littéraire et artistique (CSPLA) a analysées, pour la France, dans ses récents rapports sur l'IA et le droit d'auteur. Au Royaume-Uni comme ailleurs, la distinction entre les œuvres tombées dans le domaine public et celles encore protégées est cruciale, comme la qualité des modèles. Pour les contenus sous « Crown Copyright », la gestion est simplifiée, mais pour les collections privées ou les œuvres d'artistes contemporains conservées par les musées, le cadre devient mouvant.
Toute marketplace doit ainsi opérer une ventilation juridique fine :
- Œuvres dans le domaine public vs droits résiduels : Si l'œuvre originale est libre, la numérisation peut générer des droits (droits des photographes, droits sur les bases de données, coté européen au sens de la directive 96/9/CE et côté britannique, dans un régime proche maintenu après le Brexit). Le CSPLA met d'ailleurs en garde sur « l'absence d'harmonisation à l'échelle mondiale de la durée de protection et sur la nécessité de vérifier la réalité de l'absence de protection et l'étendue de l'autorisation éventuelle ».
- Données personnelles et pseudonymisation : pour le traitement d’archives, le RGPD peut imposer des contraintes avant tout entraînement d'IA, surtout s’il ne s’agit pas d’un service d’intérêt public.
- Droit moral : En droit français, contrairement au droit anglo-saxon, le droit moral est perpétuel. Par exemple, l'entraînement d'une IA sur le style d'un auteur pourrait, dans certains cas extrêmes, être contesté sur le terrain de l'atteinte à l'intégrité de l'œuvre.
En Europe et en France, la directive européenne DSM de 2019 (2019/790) sur le droit d'auteur a introduit une exception pour le "Text and Data Mining" (TDM) – définie comme « toute technique d'analyse automatisée visant à analyser des textes et des données sous une forme numérique afin d'en dégager des informations » (article 2.2 de la directive) - au profit des organismes de recherche (art. 3). Toutefois, cette exception est difficilement invocable par des entreprises de la tech sans l'accord des ayants droit, qui peuvent activer un droit d'opposition (opt-out). L'article 4 permet l'entraînement des IA sauf si les titulaires de droits ont exercé leur "opt-out" (réserve de droits).
L'expérience britannique propose une voie médiane : passer d'un régime d'exception à un régime contractuel. En créant des licences spécifiques, les institutions transforment une contrainte juridique en un actif stratégique. Cette approche rejoint l'analyse du CSPLA selon laquelle « l'Union européenne soutient l'émergence d'un marché des licences » et qu'« une fois la transparence acquise, le marché pourra s'établir et les modèles de rémunération se préciser ».
Dans ce contexte, une plateforme comme le CCE ne vend pas seulement "l'accès" ; elle organise un marché de licences permettant un usage fair and legal de contenus numérisés (prix, périmètres d’usage, permissions, conditions d’audit), avec des mécanismes susceptibles de faciliter l’exécution des droits – notamment au bénéfice d’ayants droit ou d’institutions qui, isolément, n’ont pas la capacité de négocier à armes égales. Elle a ainsi vocation à réduire le risque juridique en offrant un répertoire de contenus licenciés et assortis d’éléments de preuve (droits concédés, chaînes d’autorisation, documentation), ce qui limite – sans le faire disparaître complètement – l’exposition aux contestations ex post (revendications de titulaires, réserves de droits, etc.).
Pour les plateformes européennes, l'AI Act (Règlement (UE) 2024/1689 sur l'IA du 13 juin 2024) qui ne s’applique évidemment pas au Royaume-Uni, impose aux fournisseurs de modèles d'IA à usage général deux obligations majeures (article 53) : mettre en place une politique visant à se conformer au droit de l'Union en matière de droit d'auteur et de droits voisins (art. 53, 1, c) et rédiger « un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle d'IA à usage général » (art. 53, 1, d). Ce résumé doit, selon le considérant 107, « aider les parties ayant des intérêts légitimes, y compris les titulaires de droits d'auteur, à exercer et à faire respecter les droits que leur confère la législation de l'Union ».
Une approche comparable à celle du projet britannique pourrait faciliter la conformité aux obligations de transparence et de traçabilité, sans pouvoir sans doute garantir totalement une conformité totale tenu des obligations issues de l'AI Act qui vont au-delà de la seule documentation des sources (gouvernance des données, gestion des risques, etc.). Une plateforme pourrait aussi résoudre le dilemme de la "valeur d'usage" de la donnée : cette valeur ne réside plus seulement dans l'œuvre elle-même, mais dans la qualité et la structuration du jeu de données nécessaire à l'apprentissage machine.
Vers un modèle français de souveraineté culturelle et numérique ?
La France, avec ses établissements publics culturels de haut niveau, dispose de tous les atouts pour emboîter le pas.
Une institution comme la Bibliothèque nationale de France (BnF), qui possède des millions de documents numérisés via Gallica, explore, par le projet ArGiMi, avec d'autres acteurs comme l'INA, la création de modèles de langage (LLM) sous licence ouverte, et traite déjà la question de l'articulation entre le droit d'auteur et l'IA générative. Elle pourrait passer d'une logique de « conservation » à une logique de « fournisseur de corpus structurés et labellisés ». Le rapport de la Commission interministérielle de l'IA (mars 2024) proposait d'ailleurs de parvenir à des « sets de données techniquement clés en main », ce que le CSPLA a confirmé dans son rapport de juin 2025. La Réunion des musées nationaux - Grand Palais (RMN-GP), comme d’autres grands musées, pourraient également jouer un rôle moteur. Dans le domaine des archives audiovisuelles, des opérateurs pourraient monétiser non pas le flux, mais la certification du corpus, offrant aux développeurs d'IA une garantie contre les recours en contrefaçon.
Engager des établissements culturels dans une telle démarche répondrait à un impératif de souveraineté. En entraînant des IA sur des corpus spécifiquement français et européens, on garantit une meilleure représentation des créations culturelles, de la langue française et aussi d’une certaine vision de l’histoire dans les outils numériques mondiaux. Le passage à une phase pilote, sur le modèle britannique, permettrait de tester concrètement comment des institutions comme le Louvre ou les Archives nationales pourraient négocier la valeur de leurs "trésors numériques" tout en protégeant les droits des créateurs. En vendant des corpus "prêts à l'emploi", les institutions publiques pourraient enrichir la valeur : on ne vend plus seulement un fichier, on vend une forme de garantie d'éviction et une sécurisation des acteurs économiques, avec l'assurance que l'acheteur ne sera pas poursuivi.
C'est ici que se joue l'équilibre de demain : faire du patrimoine le socle d'une intelligence artificielle créatrice de valeur, avec des acteurs culturels comme tiers de confiance de l’économie de la donnée. Si un outil comme la market place du CCE fonctionne, cela pourrait donner aux entreprises de la tech et aux ayants droit une piste pour sortir du face à face juridictionnel ou des négociations de gré à gré dans des rapports de force nécessairement déséquilibrés.
Article paru dans les Echos le 11 mars 2026