Internet Archive a 30 ans : pourquoi ce pilier du Web est aujourd’hui menacé
Depuis sa création, l’organisation collecte des milliards de pages Web, logiciels et autres livres numériques, afin de préserver la mémoire d’Internet. Un projet qui se heurte aujourd’hui à des obstacles juridiques et techniques, liés notamment à l’explosion de l’intelligence artificielle.
Au début des années 1980, Brewster Kahle trépigne. Le natif de New York vient de rejoindre San Francisco et sent bien qu’une révolution technique couve dans la baie. Projets après projets, il participe à l’émergence d’Internet et assiste à la création du système permettant de relier tous ses contenus : le World Wide Web. « Très vite, une question m’a obsédé : comment en préserver la mémoire ?, narre-t-il. L’idée m’est alors venue de concevoir un système permettant d’archiver toutes les ressources du Web. »
Jorge Luis Borges rêvait l’univers comme une bibliothèque géante ; Brewster Kahle perçoit ce monde naissant de la même façon. En mai 1996, le projet prend vie et trouve son nom : Internet Archive.
Trente ans plus tard, en mai, l’organisation à but non lucratif fête son anniversaire. Elle est devenue incontournable, à l’image de sa Wayback Machine, plateforme lancée en 2001 permettant de sauvegarder des URL par un système de capture d’écran. Une démarche précieuse, alors que la censure, les problèmes techniques ou le non-renouvellement des serveurs entraînent la disparition des pages Web (en 2024, une étude du Pew Research Center constatait que 38 % d’entre elles s’étaient évaporés en dix ans). « Nous ne célébrons pas que nos 30 ans, se réjouit Brewster Kahle. En décembre, nous avons aussi dépassé les mille milliards de pages Web archivées ! »
Gardien des mémoires
Pages Web donc, mais aussi logiciels, extraits sonores, vidéos… Internet Archive est un trésor pour les explorateurs des mémoires numériques. « Ils ont récupéré des dépôts bruts d’Usenet, un forum des années 1980 qui accueillait les premières communautés en ligne, cite en exemple Camille Paloque-Bergès, socio-historienne au Conservatoire national des arts et métiers et spécialiste des cultures informatiques. Ce sont des ressources précieuses pour comprendre les évolutions d’Internet. »
Comme elle, Valérie Schafer utilise la Wayback Machine presque quotidiennement. « Je travaille sur une histoire du CD-ROM, raconte cette historienne spécialiste de l’histoire d’Internet et du Web à l’université du Luxembourg. Avec ses 75 collections dédiées et ses quelques dizaines de milliers de CD-ROM archivés, cela me donne un corpus dantesque. » Les journalistes aussi sont nombreux à utiliser l’outil pour prévenir certaines URL de la censure.
« A l’orée des années 2000, lorsque de nombreuses bibliothèques nationales commencèrent à archiver le numérique, Internet Archive les a aidées à mettre en œuvre leurs projets », ajoute Julien Masanès, cofondateur d’Internet Archive Europe et ancien conservateur à la Bibliothèque nationale de France (BNF).
En 2003, avec les bibliothèques nationales scandinaves et islandaise, la fondation a mis au point le crawler Heritrix, un robot arpentant les pages Web pour les transformer en archives. « Et en 2005, après avoir aidé la BNF, ils ont confié à bas prix toutes les archives du Web français que nous ne pouvions pas récolter, complète Vladimir Tybin, chef de service du dépôt numérique à la BNF. Sans eux, nous aurions eu un vide entre 1996 et 2005. »
Offensive judiciaire des éditeurs
Mais, aujourd’hui, les nuages noirs s’amoncellent au-dessus de la création de Brewster Kahle. Au cœur de l’écosystème Internet Archive, un dispositif en particulier irrite les grandes maisons d’édition : l’Open Library. Des romans de Marguerite Duras aux essais du philosophe sud-coréen Byung-Chul Han en passant par Hunger Games, cette plateforme propose l’emprunt de plus de 40 millions de livres scannés. Pour justifier de la légalité du dispositif, Internet Archive argue qu’il s’agit de « prêts numériques contrôlés », avec une file d’attente pour éviter qu’un PDF ne soit consulté par plusieurs internautes en simultané.
Mais, en 2017, l’Authors Guild, incontournable syndicat des écrivains américains, accuse la bibliothèque virtuelle de violer le droit d’auteur. L’année suivante, 2 500 auteurs engagent une campagne pour retirer leurs œuvres de l’Open Library, estimant n’avoir jamais donné leur accord.
En 2020, la situation s’embrase. Alors que la pandémie de Covid-19 se répand, le monde se confine, et les bibliothèques ferment. Internet Archive annonce alors l’ouverture d’un dispositif « d’urgence » : les restrictions d’emprunts sont levées, et tous les livres sont en libre accès. Pour les éditeurs, c’est la goutte de trop. Aux Etats-Unis, quatre maisons d’édition (dont une filiale d’Hachette Livre France) portent plainte contre l’association.
Cette dernière dégaine la cartouche du fair use, principe juridique permettant des exceptions aux droits d’auteur si la démarche sert le bien commun, mais en vain. La justice américaine refuse l’argument et condamne Internet Archive à cesser de prêter des livres numériques sans compensation pour les auteurs. Dans la foulée, 500 000 livres sont retirés de l’Open Library.
« Depuis toujours, les bibliothèques ont pu acheter des livres et les prêter selon leurs conditions pour veiller à ce qu’ils restent accessibles aux générations futures, que l’éditeur en tire des bénéfices ou non, proteste Lila Bailey, directrice légale d’Internet Archive. Le marché numérique a donné aux éditeurs et aux plateformes un contrôle sans précédent sur le fonctionnement des bibliothèques, par le biais de licences unilatérales. »
« Quand vous prenez des contenus protégés par le droit d’auteur, que vous les reproduisez, les stockez et les mettez à disposition par l’intermédiaire d’un soi-disant prêt, vous êtes en contrefaçon à chaque étape. C’est tout », rétorque Renaud Lefebvre, directeur général du Syndicat national de l’édition. Sempiternel dilemme du savoir et de la culture à l’ère du numérique : faut-il parler le langage du droit ou cultiver l’imaginaire du commun ?
Les initiatives des maisons d’édition ont en tout cas fait des émules : en 2023, six labels de musique ont porté plainte à leur tour, si bien qu’une question se pose : les affaires légales tueront-elles Internet Archive ? « C’est une petite structure [150 employés, hors bénévoles]. Ces procédures-bâillons peuvent la faire disparaître », juge Julien Masanès. Mais Lila Bailey, elle, voit surtout une autre menace : « Aujourd’hui, le défi principal pour Internet Archive n’est pas d’ordre juridique. Il est technique. »
Verrous numériques
Car le Web a changé. Les robots-archivistes comme Heritrix ne sont aujourd’hui plus seuls dans l’espace numérique : à l’heure de l’Internet commercial, les crawlers moissonnent à tout bout de champ les pages Web pour en commercialiser les données. Un usage en particulier affole éditeurs et plateformes : le vol de contenus pour entraîner les modèles d’intelligence artificielle (IA).
Pour prévenir ces pillages, ils installent alors des verrous numériques, n’autorisant l’accès à leurs contenus qu’aux seuls robots dont ils consentent la récolte. « Le New York Times, Le Monde, Reddit… Tous ces éditeurs bloquent désormais Heritrix », s’agace Brewster Kahle.
Tout le monde ne voit pas pour autant Internet Archive comme une « victime collatérale » de la bataille entre éditeurs souhaitant préserver leur modèle économique et concepteurs d’IA à l’appétit dévorant. « La première chose que les acteurs de l’IA ont faite, c’est aller se servir dans les corpus pirates », assène Renaud Lefebvre, rappelant que des géants comme OpenAI, Anthropic ou Meta ont tous exploité des fichiers géants contenant des contenus piratés. Or, pour lui, Internet Archive fait partie des bases de données illégales pouvant être utilisées pour entraîner les IA, tout en reconnaissant ne pas disposer de preuves matérielles.
Un amalgame injustifié pour Brewster Kahle. « Les outils d’Internet Archive, comme la Wayback Machine, sont conçus pour être parcourus par des humains, pas par des robots. Tout est segmenté en blocs, et si les entreprises d’IA voulaient récolter massivement toutes nos ressources, cela prendrait beaucoup trop de temps. »
Dans ce contexte tendu, l’organisation prépare sa riposte. Ses équipes travaillent actuellement sur Umbra, un crawler héritier de Heritrix censé adapter ses techniques d’archives aux défis posés par l’IA. La lutte contre la désinformation, elle, constitue une autre actualité de l’ONG. « Nous identifions les innombrables fake news qui contaminent certaines pages Web archivées, pour préciser leur nature auprès des internautes, explique Brewster Kahle. Il s’agit d’éviter qu’un contenu totalement faux ne soit pris au sérieux par les explorateurs du numérique d’aujourd’hui et demain. »
Enfin, l’organisme renforce ses capacités de lobbying par l’intermédiaire du projet Our Future Memory, une campagne internationale visant à défendre auprès des institutions les droits numériques. Trente ans après sa naissance, Internet Archive entend continuer son combat.
[Source : Le Monde]