L’intelligence artificielle s’immisce dans l’industrie du livre, assise sur un tas d’or : ses données

La 22e édition des Assises du livre numérique, organisées le 6 décembre par le Syndicat national de l’édition (SNE), a pour thème « l’application de l’intelligence artificielle (IA) dans l’édition de livres ». Avec comme « invité inaugural » : Tom Lebrun, co-auteur en 2020 d’un livre blanc sur l’IA.

Ce n’est pas la première fois que les Assises du livre numérique (1) traitent de la question de l’intelligence artificielle (IA) dans l’industrie du livre. Déjà en 2017, lors de l’édition de 2017, une table-ronde avait été consacrés à ce sujet et avait fait l’objet d’une synthèse (2). Celle-ci relevait plus d’un défrichage de la part de la commission numérique que préside depuis plus de sept ans Virginie Clayssen (photo) au sein du Syndicat national de l’édition (SNE), elle-même étant par ailleurs directrice du patrimoine et de la numérisation chez Editis (groupe Vivendi).

Apprivoiser les data de l’IA
Quatre ans après cette table-ronde, le SNE muscle son approche de l’IA en lui consacrant pour la première fois – le 6 décembre pour cette 22e édition et « uniquement en distanciel » – la totalité du programme de ses Assises du livre numérique. « Comment l’intelligence artificielle peut-elle intervenir dans les différentes étapes de la chaîne du livre, de la traduction à la diffusion en passant par la fabrication ? », s’interrogent l’industrie du livre. Un invité inaugural de cette journée doit répondre à la question plus sensible : « Comment l’intelligence artificielle peut-elle transformer le monde de l’édition ? ». Cet intervenant est Tom Lebrun (photo page suivante), juriste et doctorant à l’université Laval (UL), au Québec (Canada), spécialiste en droit et intelligence artificielle, ainsi que co-auteur avec René Audet du livre blanc « L’intelligence artificielle dans le monde de l’édition » publié en septembre 2020 sous licence libre creative commons (3). Tom Lebrun est spécialisé en droit du numérique et en droit d’auteur. Ses travaux de recherche portent actuellement sur la question de « la génération de textes par intelligence artificielle ». Il publie régulièrement sur les questions de droit d’auteur, de culture numérique et de rapport entre droit et IA. Ses recherches sont financées par un fonds québécois (4). « L’intelligence artificielle fait l’objet de fantasmes et de craintes souvent irraisonnées. Elle trouve à s’insérer dans toutes les sphères de notre société : consommation, médecine, industrie, vie quotidienne, … Pourtant, encore peu de travaux ont été consacrés à sa mobilisation par les différents acteurs de l’écosystème du livre. Ce manque est d’autant plus critique que les grands acteurs du numérique – Amazon en tête – s’engouffrent très largement dans cette voie depuis un certain nombre d’années », font justement remarquer Tom Lebrun et René Audet dans l’introduction de leur livre blanc d’une trentaine de pages et mis en ligne gratuitement (5). Contacté par Edition Multimédi@, Tom Lebrun indique que depuis sa parution il y a un an, « les différences sont mineures et strictement quantitatives ». Et aujourd’hui, « les systèmes sont simplement plus performants et plus convaincants ». Les deux auteurs relèvent que le monde de l’édition – habitué jusqu’alors à la « rétroaction entre ses différents acteurs (le libraire informant le diffuseur, ce dernier informant l’éditeur, etc.) » – évolue désormais dans « un contexte de pressurisation économique croissante provoquée par la mainmise de quelques acteurs de la vente en ligne, particulièrement Amazon ». Aussi, la raison d’être de ce livre blanc est d’esquisser pour l’écosystème du livre « une possible piste à suivre », à savoir « l’idée d’une concertation de certains de ses acteurs sur l’utilisation d’IA (voire l’éventuelle mise en commun des données collectées) ». Dans leur conclusion, les deux auteurs québécois appellent toute la filière du livre (maisons d’édition, distributeurs, librairies, plateformes, …) à investir dans les technologies IA si elle n’a pas déjà commencé à le faire car « face à cette concurrence [des acteurs comme Amazon], chacun des acteurs de la chaîne du livre doit se demander comment faire face à ce mouvement de fond, qui s’apprête à modifier en profondeur de nombreux métiers du livre ». Le mieux pour l’introduction d’IA dans les différents maillons de la chaîne est, d’après eux, d’exploiter les différentes « données déjà disponibles et que ne possède pas la concurrence, quitte à nouer des accords asymétriques entre les différents acteurs intéressés pour y accéder ».

La chaîne du livre impactée
D’autant que ces données existent – statistiques centralisées des distributeurs, données des éditeurs ou encore celles collectées par les bibliothèques et les libraires – et sont des actifs précieux que tous les acteurs du milieu du livre possèdent, en particulier dans les bibliothèques, car « diversifier ses ressources en données peut constituer une stratégie payante ». Ces data constituent en tant que telles des ressources stratégiques considérables. Cela suppose que les maisons d’édition et l’ensemble des acteurs qui gravitent autour d’elles se mettent à « récolter » de façon optimale la data du livre, y compris les données qui ne sont pas « moissonnées » car, rappellent les auteurs du livre blanc de l’Université Laval, « le fonctionnement des applications d’IA [est] lié au volume et à la qualité des données disponibles ». Le succès des solutions d’IA dépendra surtout de la compatibilité des données entre elles. Pour ce faire, les auteurs recommandent d’« établir un protocole de normalisation des données en accord avec tous les acteurs concernés est un préalable nécessaire, sur lequel les pouvoirs publics ont un rôle à jouer ».

L’IA se met à écrire livres et articles !
Encore faut-il « catégoriser et étiqueter les données en fonction des objectifs visés », sans quoi, préviennent-ils, « les données collectées sont à peu près inutiles sans cette étape fondamentale de préparation des données ». Cela passe aussi par des chantiers communs entre des acteurs de la filière du livre, y compris avec des plateformes numériques, ainsi que par la mobilisation d’institutions et d’acteurs gouvernementaux pour contribuer au financement du développement de prototypes ou d’éléments logiciels partagés.« La mise en commun de données appelle une concertation, notamment dans le développement de ressources logicielles (aussi rendu possible par la création d’un cadre réglementaire favorable) », est-il souligné. Mais qui dit data dit cyberattaque : la cybersécurité des données « livrées » va devenir primordiale pour l’industrie du livre jusqu’alors épargnée par sa matière première historique qu’est le papier. La dématérialisation des ouvrages en tout genre fait basculer les maisons d’édition, parfois centenaires, dans le nuage informatique et ses fléaux.
Même si le livre blanc n’aborde pas le sujet du nuage informatique liés à l’IA, le cloud va pourtant permettre à l’industrie du livre de créer elle aussi des « lacs de données », des « Data Lake », à savoir le stockage des données dans leurs formats originaux ou peu modifiés, et à partir duquel leur analyse et leur valorisation peuvent s’opérer sous plusieurs formes révolutionnaires pour l’édition : data mining, text and data mining, marchine learning, business intelligence, cognitive search, master data management, etc. Encore fautil que l’industrie du livre sache ce qu’elle veut faire de cet « or noir du XXIe siècle » : des algorithmes de recommandation de livres ? de la traduction automatique d’ouvrage pour l’international (comme avec DeepL, l’IA utilisée par l’éditeur scientifique Springer) ? de l’animation de robots conversationnels (chatbots) pour interagir avec les lecteurs à la place de l’auteur et/ou de l’éditeur ? des réseaux de neurones artificiels afin par exemple de connaître les lecteurs d’un livre ? de la fouille intelligente de textes numérisés ? ou encore de la génération de romans ou d’essais à l’aide d’une IA créative ? Sur cette dernière possibilité, le juriste Tom Lebrun travaille justement en ce moment sur la question de la génération de textes par intelligence artificielle. « Au-delà du fantasme, beaucoup d’outils actuels permettent déjà d’écrire », écrit-il dans le livre blanc. La maîtrise du langage naturel – « et donc de l’écriture » – ne relève plus de la science-fiction. Et le livre blanc de mentionner la société OpenAI qui, cofondée par le milliardaire sud-africano-canadoaméricain Elon Musk il y a six ans, a développé en 2019 une IA nommée « GPT-2 » – devenue le 18 novembre dernier « GTP-3 » (6) – et capable de générer des textes de fiction ou de journalisme. Si la bêta 2 donnait des résultats « à peu près crédibles pour une lecture rapide et superficielle », la bêta 3 devrait avoir appris de ses erreurs. Et du livre à la presse, il n’y a qu’un pas : « L’écriture générée par IA est également utilisée dans le journalisme. Environ un tiers des dépêches publiées par [l’agence de presse] Bloomberg est ainsi générée par des machines », affirment les auteurs. Tom Lebrun signale à EM@ un modèle de génération de texte francophone développé par la société suisse Coteries et appelé Cedille, en version bêta (7). Le livre blanc aurait pu évoquer Dreamwriter, un algorithme conçu par le chinois Tencent, qui avait même écrit un article financier reproduit ensuite sans autorisation par un tiers. Un tribunal de Shenzhen en Chine avait reconnu fin 2019 et pour la première fois que Dreamwriter pouvait bénéficier de la protection du droit d’auteur (8). « L’IA pourrait conduire à développer des assistants créatifs personnifiés, de façon à aider à écrire ou même de dessiner “à la manière” d’un auteur, par exemple », estiment Tom Lebrun et René Audet. Tout au long de la vie d’un livre, de son écriture à sa lecture en passant par son édition, l’intelligence artificielle est amenée à y mettre son grain de sel, voire plus si affinités. Dans son roman « Exemplaire de démonstration » (Fayard, 2002), son auteur Philippe Vasset imaginait Scriptgenerator, un logiciel rédacteur de best-sellers, personnalisable par l’éditeur en fonction d’un public lecteur cible (9).

Encore beaucoup de progrès à faire
« Le risque d’une écriture entièrement algorithmisée existe bel et bien, mais pas exactement de la manière dont on l’imagine. Les auteurs de nouvelles strictement informatives, de récits tenant du divertissement, ont peutêtre effectivement du souci à se faire », ont déjà prévenu Tom Lebrun et René Audet dans une interview accordée en octobre 2020 à la Faculté des lettres et des sciences humaines (FLSH). Mais d’ajouter : « A l’inverse, celles et ceux qui pratiquent du journalisme d’investigation, celles et ceux qui travaillent à un art littéraire (…), en bref, toutes celles et ceux qui proposent un rapport critique et construit au texte, celles et ceux-là entrent dans une catégorie de production textuelle que la machine a encore du mal à investir » (10). Ouf ! @

Charles de Laubier