Alors que s’achève fin juin la 4e édition du « mois du livre audio », événement organisé en France par le Syndicat nationale de l’édition (SNE), le marché mondial du livre audio est pleine croissance, porté notamment par la voix générée par l’IA. Les labels « interprétation humaine » s’organisent.
L’intelligence artificielle et les comédiens rivalisent pour lire les livres à haute voix aux auditeurs, avec une qualité d’élocution qui laisse parfois… sans voix, tant la ressemblance entre la synthèse vocale de l’IA et les cordes vocales de l’humain est confondante. Et cette dichotomie du marché mondial du livre audio n’est pas prête de s’estomper, tant le « tsunami » de l’IA n’a pas fini de se propager dans le monde de l’édition. Comédiens et « AI-generated voice » sont comme dans un dialogue de sourds, un peu en chiens de faillance. Comment distinguer l’un de l’autre ?
USA et UK : « directives internationales »
Avec son label « Interprétation humaine » (IH), annoncé le 11 juin 2025 en collaboration avec l’association de comédiens « La Voix » et conçu pour les maisons d’édition en France, le Syndicat national de l’édition (SNE) n’est pas le premier à proposer aux éditeurs d’apposer une signalétique sur les livres audio pour que les « lecteurs » auditeurs puissent savoir à quoi s’en tenir. Six mois auparavant, en décembre 2024, l’Audio Publishers Association (APA) basée à New York et la Publishers Association britannique (UK PA) basée à Londres ont publié des « directives internationales sur la façon d’étiqueter les livres audio racontés par l’IA » (1). Dirigée actuellement par Michele Cobb (photo de gauche), l’APA compterait parmi ses membres – dont la liste n’est pas divulguée – Audible d’Amazon, Apple Books ou encore Spotify, aux côtés de Hachette Audio (filiale newyorkaise du groupe français (2)), d’HarperCollins Audio, de Macmillan Audio, pour ne citer qu’eux.
L’APA et la UK PA partent du constat que (suite) « divers termes pour différents types de narration par l’IA sont utilisés de manière interchangeable sur le marché, ce qui entraîne une confusion parmi les éditeurs, les détaillants et les consommateurs ». Aussi, avec des maisons d’édition américaines et britanniques, les deux organisations ont émis ces « directives », en concertation avec des éditeurs, des détaillants, des distributeurs et des fournisseurs de métadonnées des Etats-Unis, du Canada, du Royaume-Uni et d’Europe. Objectif : « Promouvoir l’uniformité dans l’ensemble de l’industrie afin de donner aux consommateurs des informations claires et de leur permettre de faire des choix éclairés lors de l’achat de livres audio ». Pour autant, ces directives ne sont publiées qu’à titre de recommandations et sont donc non-contraignantes, et « ne portent aucun jugement sur l’utilisation de la narration par l’IA ». L’APA et la UK PA ont publié ces lignes directrices sur leur site respectif, ici (3) et là (4). « Avec la prolifération des livres audio narrés par l’IA, il est essentiel que notre industrie dispose d’un langage international qui permette aux éditeurs, aux détaillants et aux consommateurs de faire la distinction entre les différents types de narration », a assuré Jon Watt (photo de droite), président du groupe des éditeurs audio, au sein de l’association britannique (5). Contacté par Edition Multimédi@ à propos de l’absence d’harmonisation internationale de ces mesures, notamment avec la France, il se dit « ravi qu’il y ait une discussion en direct au sein du secteur de l’édition internationale sur la meilleure façon de [faire] ».
Les directives anglo-saxonnes identifient deux types de narration d’IA qui doivent être distingués l’un de l’autre, à l’aide des conventions de nommage suivantes proposées par les deux associations transatlantiques :
• « AI Voice » : une voix synthétisée basée sur l’IA qui a été générée à partir d’échantillons provenant d’un grand groupe de locuteurs non identifiés. Exemple : les voix « Auto Narration » de Google, telles que « Archie » ou « Mary ». Dans la liste dite « Onix 19 » (personnes non nommées), les codes 05 à 07 peuvent être utilisés pour la convention « AI Voice ». La « voix synthétique » est alors une voix générique basée sur l’IA générée à partir d’échantillons provenant d’un grand groupe de locuteurs non identifiés.
Plus de 2 milliards de dollars aux Etats-Unis
• « Authorized Voice Replica (AVR) » : une voix basée sur l’IA qui a été générée à l’aide d’échantillons autorisés/sous licence d’une voix humaine spécifique et qui cherche à reproduire cette voix. Par exemple, un éditeur travaille avec la succession d’un auteur décédé pour créer une réplique de voix autorisée basée sur des échantillons d’archives de la voix de l’auteur. Quant au « clonage », il fait référence à la réplication non autorisée lorsqu’un humain n’a pas donné la permission de reproduire sa voix. En outre, l’APA a publié le 2 juin 2025 une étude menée aux Etats-Unis sur le chiffre d’affaires généré par les livre audios : 2,22 milliards de dollars réalisés en 2024, soit une croissance de 13 % par rapport à l’année précédente. La quasi-totalité de ces revenus (99 %) provient des livres audio numériques, les ventes de livres audio sur supports physiques devenant très marginales voire négligeables. Et 51 % des Américains âgés de 18 ans et plus, soit environ 134 millions de personnes, ont écouté un livre audio.
« La Voix » contre la narration IA
Voix humaine ou voix de synthèse ? « La consommation et le nombre de livres audio racontés par l’IA ont augmenté, bien que la volonté d’essayer les livres audio racontés par l’IA ait reculé d’une année sur l’autre, passant de 77 % en 2023 à 70 % en 2025 », souligne l’APA. Par ailleurs, l’association newyorkaise pointe du doigt YouTube où, selon elle, les titres audio – écoutés par 35 % des auditeurs américains de livres audio – « sont en grande partie piratés » (6).
La France, elle, compte 6,8 millions d’auditeurs de livres audio (physiques ou numériques), soit 13 % de la population d’après Médiamétrie pour le baromètre 2024 du SNE avec la Sofia (7) et le SGDL (8). A l’occasion de la 4e édition du livre audio au slogan « Lire, ça s’écoute ! » (9), le SNE qui l’organise a présenté le 11 juin le label « Interprétation humaine », lancé par les éditeurs membres de sa commission « livre audio » – présidée par Laure Saget (photo ci-contre), par ailleurs directrice générale d’Audiolib, filiale du groupe Hachette. Les premiers livres audio intégrant ce label devaient être publiés dans le courant du mois de juin 2025. Un « kit de communication » est disponible en téléchargement sur le site du SNE (10). Si le syndicat semble rester neutre vis-à-vis du recours à la voix humaine ou de l’utilisation de la voix de synthèse, il n’en va pas de même de l’association partenaire du SNE dans l’instauration de ce label : « Les comédiens saluent cette décision des éditeurs qui reconnaît la lecture des œuvres comme un art en affirmant la supériorité de l’interprétation sur l’assemblage de phonèmes par des algorithmes. Ce label représente un jalon essentiel dans la préservation du sens, de l’émotion et de la cohérence des œuvres audios », a affirmé Odile Cohen, membre du conseil d’administration de l’association « Les Voix », qui regroupe des comédiens spécialisés dans le doublage et le livre audio (11). Contrairement aux associations anglo-saxonnes APA et UK PA qui se font fort de ne porter « aucun jugement sur l’utilisation de la narration par l’IA », le SNE – aux plus de 700 adhérents – a choisi son camp au nom des « éditeurs de livres audio » : « Ils tiennent également à valoriser le travail des comédiens et des lecteurs dans la création de ces œuvres audio », indique le communiqué du 11 juin (12). Créée il y a dix ans (en 2015), la commission « livre audio » du SNE est composée d’une douzaine de membres (13), dont Audiolib (Hachette), Gallimard, Bayard Editions ou encore Actes Sud. « Elle s’attache à promouvoir le livre audio auprès des prescripteurs : libraires, bibliothécaires, journalistes, grand public adulte et jeunesse, ainsi qu’auprès des enseignants et des institutions culturelles […]. Elle permet également aux éditeurs de livre audio de développer des projets communs et de peser auprès des partenaires institutionnels […] », précisent le SNE et son site web Lelivreaudio.fr. Jusqu’à maintenant, le SNE ne publiait aucune donnée de marché à propos du livre audio, mais il avait promis de le faire dans « les chiffres de l’édition 2024-2025 » qui devait paraître le 26 juin à l’occasion de son assemblée générale annuelle. « La coopération de tous les éditeurs de livres audio pour constituer un échantillon représentatif est impérative », avait prévenu le SNE, qui avait invité l’an dernier « tous les éditeurs produisant des livres audio, adhérents ou non adhérents du SNE, à répondre massivement à la vague d’enquête statistique de 2025 ».
D’après Spotify, près de 60 % des auditeurs de livres audio en France ont entre 18 et 34 ans, et représentent à eux seuls plus de la moitié du temps d’écoute total. Pourtant, la plateforme suédoise de streaming musical constate qu’il existe, en France toujours, « environ 800.000 livres mais seulement 20 à 25.000 sont convertis en livres audios », soit à peine 3 %. Depuis que la plateforme Spotify a lancé en octobre 2024 de livres audio en France, en Belgique, au Pays-Bas et au Luxembourg, elle dit observer « une croissance moyenne de 12 % par mois du nombre d’auditeurs de livres audio, ainsi que du temps d’écoute ».
Spotify, Amazon, Apple, Google, …
A tel point que Spotify a annoncé en avril dernier consacrer 1 million d’euros à la production de livres audio, devenant ainsi concurrent direct des maisons d’édition traditionnelles. Tout en ayant recours à la narration humaine, Spotify dit limiter les coûts avec la narration vocale de synthèse, en partenariat avec ElevenLabs, en précisant que « les titres narrés par voix de synthèse seront clairement identifiés sur Spotify en tant que tel ». De son côté Amazon Music propose un catalogue de plus de 21.000 livres audio en français, dont un par mois écoutable gratuitement pour les abonnés Prime, sur un total de 850.000 titres audio de sa filiale Audible (qui utilise notamment l’outil maison Amazon Polly). Apple utilise pour ses « audiobook » une technologie de voix numérique. Google donne aussi de la voix de synthèse. Bien d’autres solutions existent : PlayHT, Resemble AI, DeepZen, Aflorithmic, … @
Charles de Laubier
Le passage de quatre à trois opérateurs de télécommunications sur un marché national occupe, depuis plus d’une décennie, le cœur des débats européens en matière de politique de la concurrence et de régulation sectorielle. Longtemps réticente à autoriser des opérations de concentration aboutissant à une telle réduction du nombre d’acteurs, la Commission européenne a, par le passé, systématiquement opposé une forte résistance à ces fusions, invoquant le risque d’une diminution de la concurrence, d’une hausse des prix pour les consommateurs et d’un ralentissement de l’innovation.
La licorne française Mistral AI, aux ambitions aussi grandes que sa valorisation de 5,8 milliards d’euros – atteinte il y a un an maintenant, à la faveur de sa dernière levée de fonds de 600 millions d’euros bouclée en juin 2024 –, a un besoin urgent de financements supplémentaires. Son PDG cofondateur Arthur Mensch (photo) l’avait confirmé à l’agence Bloomberg en février, notamment pour financer un centre de données qu’il prévoit de créer en France. « Bien sûr, en tant que start-up, on vous demande aussi de lever plus de fonds. C’est certainement un sujet qui nous préoccupe », avait-il confié (
Emmanuel Macron, VRP-en-chef de Mistral