James Gleick est un journaliste américain spécialisé dans la vulgarisation scientifique. Sur son blog hébergé par le New York Review of Books, il vient de publier un article intitulé “Les bibliothécaires de la twittosphère" où il rappelle, à travers le prisme de Twitter, qu'internet est une non-mémoire Dans les années 1850, les compagnies de télégraphe anglaises et américaines eurent l'idée, vite abandonnée, qu'elles pourraient (et devraient) archiver chaque message qui passait par leurs câbles. Des millions de télégrammes à l'abri du feu dans des coffres- forts. Imaginez l'apport historique ! “Ne pourrait-on, au 21e siècle, tirer profit de la correspondance conservée de tout un peuple ?" demandait en 1854 Andrew Wynter, médecin et vulgarisateur scientifique célèbre. Cela vous rappelle quelque chose ?, demande James Gleick. Aujourd'hui, au XXIe siècle, la Bibliothèque du Congrès compile la Twittosphère, un corpus constitué par tous les tweets publics. Et ça fait beaucoup. La Bibliothèque s'est lancée dans ce projet en avril 2010, alors que Twitter n'avait que 4 ans et avait produit 21 milliards de messages. Depuis, Twitter a grandi et 21 milliards de messages, c'est ce qui est publié chaque mois. En décembre, la Bibliothèque en a reçu 170 milliards : chacun sous la forme d'une capsule recouverte de métadonnées indiquant la provenance, le destinataire et le moment d'émission. La Bibliothèque doit capter un flux d'informations qui jaillit des 500 millions de comptes existants (y compris les doublons, les morts, les comptes parodiques, les amis imaginaires et les robots), qui tapent leurs épîtres pressées sur les claviers de leur téléphone, de leur tablette ou de leur ordinateur ; les tweets se déversant dans les serveurs de Twitter par milliers à chaque seconde – par dizaines de milliers pendant les pics que représentent les matchs de la Coupe du monde, les élections présidentielles ou la grossesse de Beyonce – puis, suivant leur chemin en temps réel jusqu'à une entreprise du nom de Gnip, située à Boulder dans le Colorado. Gnip organise les tweets en lots d'une heure sur un serveur sécurisé, où ils sont comptés, vérifiés et finalement copiés sur bande magnétique, et où ils sont ensuite rangés dans des classeurs. Dans différents lieux par sécurité. S'il vous est déjà arrivé de twitter, soyez rassurés, chacune de vos perles connaîtra la postérité. Bien sûr, la chance que même le meilleur tweet soit lu un jour par des yeux humains est proche de zéro. Il s'agit là d'un océan de l'éphémère. Une bibliothèque de Babel. Personne ne s'illusionne sur la qualité – le sérieux, la véracité, la sagesse, l'originalité – d'aucun de ces tweets. La Bibliothèque du Congrès prend le mauvais comme le bon : les rumeurs et les mensonges, les bavardages, les blagues, les huées, les railleries, les fanfaronnades, les invectives, les élans de débauche, les vils potins, les épigrammes, les anagrammes, les quolibets, les moqueries et les ragots, les plaidoyers, les chicaneries, les jacasseries, les pinaillages, les morceaux de littérature et les œuvres d'art miniatures, les auto-promotions et les élans de modestie, les grandiloquences et les chuchotements. Des nouvelles choses à chaque milliseconde. Appelez ça comme vous voulez, le corpus de Twitter forme aujourd'hui un morceau de ce qui émane des esprits américains, et son enregistrement entre parfaitement dans les missions de la Bibliothèque du Congrès. Les historiens voient comme des trésors les journaux intimes du 19e siècle : pourquoi ne pas en faire de même avec les tweets du 21e siècle ? Plusieurs centaines de chercheurs ont déjà demandé accès à ce corpus, mais il n'est pas aisé de leur donner. Les enregistrements ne sont pas en ligne. Ils sont organisés par date et heure. Pour les mettre en ligne, et les indexer de manière à ce qu'on puisse faire des recherches, il faudrait des fermes de serveurs gigantesques, comme Google en a beaucoup, mais pas le gouvernement américain". L'article détaille ensuite la difficulté à effectuer des recherches avec ces données particulières que sont les tweets. Il explique que ce serait le rêve de la Bibliothèque du Congrès de donner aux chercheurs des réponses instantanées à leurs requêtes, mais on en est loin. Même en passant par Gnip, il est possible de faire des recherches, mais la réponse à une question peut prendre des jours. Bref, cela va coûter de l'argent et représente un vrai défi. Au moins, précise Gleick, le coût de la préservation en elle-même est assez bas, des dizaines de milliers de dollars d'après la Bibliothèque du Congrès. Et prend assez peu de place, par rapport aux télégrammes qu'il s'est avéré impossible de conserver dès qu'ils ont gagné en popularité. “Ô, historien de demain, seras-tu capable de trouver des pierres précieuses dans la boue ?", s'interroge l'auteur. Peut-être que cela ne vaudra pas la peine que tu y perdes ton temps – à moins que tu en aies plus que moi. Peut-être pourras-tu t'en délecter, ou les écouter sur un support de pensée pure, scintillante, comme un objet fixe dans l'univers vaste et sombre. En tout cas, moi, je me régale de ma toute petite part, moins d'un cinq millionième, en temps réel. J'entends de nouvelles choses chaque jour. Je ne crois pas tout ce que j'entends, et je ne suis pas à l'affût des statistiques et des tendances. Je crois plutôt que Twitter est un mirage, comme l'écrit l'écrivaine Joyce Carol Oates dans un tweet : “Twitter est le mirage, qui, à mesure que vous approchez, s'éloigne. Et pourtant, vous approchez." Voilà pour ce beau texte qui me fait penser à ce qui fut un moment un rêve de savant fou. Postulant que les machines servant aux potiers de l'antiquité réagissaient aux vibrations des sons qui les entouraient, certains ont cherché la machine qui pourrait traduire ces vibrations et faire renaître l'ambiance des ateliers, nous faire entendre les voix de nos aïeux, leurs cris et leurs conversations. Autant que je sache, cette machine n'existe toujours pas. Peut-être que ce sera le cas un jour. Y. H.