Condensé #35 - Semaine du 16 Février 2023

Le Sujet de la semaine:

🤖 IA Générative: Tour d'horizon des litiges en cours et enjeux juridiques.

En une ligne dans le reste du monde.

Même pour les plus sceptiques, il est devenu indéniable que l’intelligence artificielle change la façon dont nous travaillons et créons du contenu. ChatGPT est d’ailleurs le phénomène de ces dernières semaines. La technologie d'OpenAI, capable de générer du texte similaire à celui produit par un humain à partir des données qu’il reçoit, a introduit l'intelligence artificielle au cœur de l’espace public comme aucune application de l’IA n’avait réussi jusqu’à présent. De nombreux autres outils de la sorte commencent de même à s'accaparer l'attention du grand public.

Que faire de toutes ces créations – de tous ces poèmes, ces articles, ces œuvres d’art ? Comment adapter le système de propriété intellectuelle à la créativité générée par ce genre d’outils ?

Comme souvent, les avancées technologiques dépassent la cadence de la loi. L'issue de ce dilemme risque d’autant plus d’entraîner des conséquencres importantes sur notre manière d’utiliser ces outils et le développement de cette technologie :

Interdire l’utilisation de contenus protégées pour l’apprentissage des algorithmes aurait pour conséquence de freiner le développement de l’innovation
Autoriser de tels apprentissages pourrait avoir des répercussions sur les détenteurs de droits des contenus utilisés, souvent artistes et dont la rémunération est déjà par nature instable.

Des juges américains pourraient vite devoir prendre position - Petit tour d'horizon des actions en cours.

Deux Class Action introduites aux Etats-Unis

Copilot, GitHub et Microsoft

Copilot, un outil sous la supervision de Microsoft, a été introduit en juin 2021 dans le but de simplifier la création de code – le principe est simple : vous écrivez du code, GitHub Copilot en propose la suite. Cette technologie a été entrainée en analysant de grandes quantités de projets open-source trouvés notamment sur GitHub, lui-même acheté par Microsoft en 2018.

La Class Action vise principalement l’utilisation de GitHub Copilot, construit sur le dos du « piratage de logiciels à une échelle sans précédent », selon les avocats des codeurs lésés.

Selon ces derniers, la plupart des codes utilisés dans l’entrainement de Copilot font l'objet de licences qui imposent de mentionner l’auteur original en cas de réutilisation du code. Pour autant, les plaignants estiment que la société américaine reproduit de larges portions de code créés par les utilisateurs sans leur en donner le crédit, violant de facto le droit d’auteur du titulaire originel.

Stability AI, DeviantArt and Midjourney

Dans le même esprit, trois artistes américains ont intenté une action en justice contre Stable Diffusion et Midjourney, deux générateurs d'art IA, et DeviantArt, une plateforme de portfolio d'artistes qui a récemment introduit son propre générateur d'art.

Les avocats des artistes affirment que ces sociétés ont violé les droits de millions d'artistes en utilisant cinq milliards d'images provenant du web pour entraîner leurs outils d'IA, sans obtenir la moindre autorisation des artistes originaux. Encore une fois, il est question d'utiliser des oeuvres protégées pour en créer de nouvelles.

Getty Images c. Stability AI

En plus d’avoir déclaré intenter une action contre Stability AI au Royaume-Uni il y’a de cela quelques semaines, Getty Image a intensifié sa bataille juridique contre son nouveau meilleur ennemi aux Etats-Unis.

Dans sa plainte, Getty affirme que dans le cadre d’une « infraction audacieuse de sa propriété intellectuelle à une échelle phénoménale », Stability AI aurait copié des millions de photographies de sa collection « sans permission ni compensation pour Getty Images, dans le but de construire une entreprise concurrente ». Au lieu de négocier une licence, Stability AI aurait « récupéré des liens vers des milliards de contenus provenant de différents sites web, y compris les sites web de Getty Images ».

Un exemple utilisé par Getty Images dans sa plainte. À gauche, l'image originale. À droite, l'oeuvre créée par Stability AI.

De plus, et contrairement aux autres plaintes, Getty accuse Stability AI d’avoir violé sa marque – le célèbre filigrane Getty Images.

La société américaine estime que dans certaines créations, les œuvres générées disposent toujours du filigrane ce qui implique faussement que Getty Images serait affilié à ce service d’une quelconque façon. La banque d’image rajoute que, bien que certaines œuvres générées soient réussies, d’autres sont carrément grotesques et l’affiliation possible avec Getty serait néfaste à son image.

Dans chaque cas, le mécanisme est le suivant : ces systèmes d’IA sont formés à partir d’un grand nombre de données, pour la plupart protégées, collectées sur le web, ce qui leur permet de générer de nouvelles œuvres.

Bien que d’autres arguments soient également cités par les avocats des parties en cause, force est de constater que l’accusation de violation du droit d’auteur fait l’unanimité parmi toutes les réclamations.

Tableau: Arguments principaux repris dans les plaintes.

Aussi utiles et innovants que ces outils puissent être, ces projets d’IA semblent pouvoir constituer une violation du droit d’auteur à deux niveaux :

Au niveau de l’apprentissage de l’algorithme (par l’utilisation d’œuvres protégées)
Au niveau de la production de l’œuvre générée (par la ressemblance avec une œuvre à qui a servi à l’entrainement de l’algorithme par exemple).

Focus sur l'apprentissage de l'algorithme et sur les régimes nationaux qui pourraient permettre une telle utilisation de données protégées.

La perspective américaine

Les Etats-Unis ont une doctrine appelée fair use (littéralement « l’usage raisonnable »), qui permet l'utilisation de certaines œuvres protégées par le droit d'auteur sans autorisation préalable dans certaines circonstances.

Cette doctrine prend en compte les facteurs suivants pour déterminer si l'utilisation est considérée comme raisonnable :

Le but et le caractère de l'utilisation : les utilisations qui favorisent la critique, les commentaires ou les projets éducatifs sont généralement favorisées par rapport aux utilisations purement commerciales – sauf si ces dernières contribuent à une autre utilité. La notion d’utilisation transformative (transformative use) a gagné en importance ces dernières années. Une utilisation sera considérée comme transformative si elle réaffecte de manière significative l’œuvre originale ou une partie de celle-ci pour créer une nouvelle signification ou libérer de nouvelles formes de créativité.

🤖 Les œuvres générées par ces systèmes d’AI générative ne ressemblent souvent pas aux données d’apprentissage initiales en apparence, notamment en raison de l’énorme quantité d’informations utilisées pour entraîner l’algorithme. Dans certains cas, il est probable que les œuvres générées soient considérées comme étant transformatives. Pour autant, comme le relève Getty Images dans sa plainte, certains de ces résultats sont très proches des données initiales (cf. Tableau).

La nature de l’œuvre originale : les utilisations d'œuvres non fictionnelles ou d'actualité sont généralement favorisées par rapport aux œuvres purement créatives ou artistiques.

🤖 C’est plutôt l’inverse pour les outils en cause dans les litiges du moment.

La quantité de l’œuvre originale : l'utilisateur ne doit pas utiliser plus de l'original que ce qui est nécessaire pour atteindre le but recherché.

🤖 Il n’existe pas de règle qui détermine qu’un certain pourcentage de l’œuvre est ou n’est pas raisonnable. De plus, le processus d’extraction des données diffère d’un système à un autre.

L’effet de l’utilisation sur le marché potentiel de l’œuvre originale : une utilisation qui empêcherait le titulaire du copyright d’entrer sur un marché potentiel avec tous les avantages du monopole du copyright serait considéré comme injuste.

🤖 Assurément (du moins pour les litiges analysés), les juridictions considéreront que les œuvres générées sont susceptibles de concurrencer les œuvres originales. Il n’est d’ailleurs pas anodin que chaque plainte mentionne des violations aux règles de concurrence loyale.

Pour autant, ces quatre conditions ne sont pas exhaustives et les tribunaux peuvent prendre en compte d’autres questions et faits lorsqu’ils rendent leurs décisions. Relativement large, cette doctrine indique seulement des critères à interpréter, là où l’Europe et le Royaume-Uni ont décidé d’introduire des exceptions précises.

La perspective européenne

Dans l'Union, la directive sur le droit d’auteur dans le marché unique numérique établit deux exceptions pour le text and data mining (TDM):

Article 3 : autorise la reproduction et l'extraction de textes et de données d'œuvres ou d'autres matériels par les organismes de recherche et les institutions du patrimoine culturel, dans le cadre de la recherche scientifique, pour lesquels ils ont un accès légal.

🤖 Est compris comme un «organisme de recherche», une université, y compris ses bibliothèques, un institut de recherche ou toute autre entité, ayant pour objectif premier de mener des recherches scientifiques, ou d'exercer des activités éducatives comprenant également des travaux de recherche scientifique. Les systèmes IA ne semblent pas rentrer dans cette définition.

Article 4 : permet le text and data mining pour tous, pour lesquels ils ont un accès légal, mais les titulaires des droits peuvent choisir de s’opposer à cette utilisation par un mécanisme d’opt-out.

🤖 A priori, il s’agit de l’exception que la défense soulèvera en cas de litiges en Europe.

La perspective britanniquE

Le Copyright, Designs and Patent Act de 1998 énonce des exceptions pour le TDM - il permet de passer outre l'accord des titulaires des droits uniquement pour la recherche scientifique non commerciale.

En 2022, le gouvernement britannique avait annoncé un plan pour étendre cette exception dans le but de stimuler l'innovation et le développement de l'intelligence artificielle dans le pays. Cependant, cette proposition a suscité des critiques et a finalement été abandonnée au début de l’année 2023.

Conclusion

Face à cette incertitude juridique, la plupart des entreprises du secteur semblent faire preuve d’une volontaire cécité vis-à-vis des violations potentielles qu’elles pourraient encourager les utilisateurs finaux à commettre. Comme en attestent les conditions d’utilisations de Github Copilot, ces acteurs tentent pour la plupart de transférer une telle responsabilité à l’utilisateur au moment de la création de l’œuvre générée.

Un mécanisme satisfaisant devant un tribunal ? Pas si sûr. Quid du fair use ? A en croire les discussions actuelles autour du sujet, de nombreux professionnels tendent à croire que cette issue est tout à fait possible.

Evidemment, une décision américaine n’a pas de portée légale en Europe. Mais peut-on vraiment ignorer son influence (coucou Google Books) ? Les exceptions actuelles au TDM sont-elles suffisantes pour tolérer une telle collecte en masse ?

Le chemin judiciaire semble encore long avant qu’une juridiction ne se prononce sur le sujet. Pour le moment, le meilleur indicateur de l’approche européenne concernant ces outils se trouve dans les discussions autour de l’IA Act – l’un des points de discorde portant justement sur la catégorisation en tant que « haut risque » ou non de « l’IA à usage général ».

Dans le reste du monde:

Un implant cérébral alimenté par l'IA bat le record de vitesse pour transformer des pensées en texte.
Allen & Overy présente son chatbot IA aux avocats en quête d'efficacité.
Siemens émet la première obligation numérique sur la blockchain.
Le New York Times poursuit l'UE au sujet du texte de von der Leyen sur Pfizer.
Petit aperçu des affaires en cours devant la CJUE en matière de protection des données.
ChatGPT réussit l'examen de licence médicale aux États-Unis.
Les Etats-Unis parviennent à exclure les ONG de la rédaction de l'IA Act.
Spotify va licencier environ 600 employés. Google en a déjà licencié 12 000.
La CNIL créée un service dédié à l'intelligence artificelle et lance des travaux sur les bases de données d'apprentissage.
TikTok confirme que ses propres employés peuvent décider de ce qui devient viral.
L'office japonais des brevets publie des lignes de conduites sous forme de manga.
37 millions de clients de T-Mobile ont été piratés.
Un homme noir emprisonné à tort pendant une semaine à la suite d'une erreur de reconnaissance faciale.
Des procureurs saoudiens réclament la peine de mort pour un universitaire en raison de son utilisation des réseaux sociaux.