Les assistants vocaux s’apprêtent à bouleverser l’accès aux contenus informationnels et culturels

Google Assistant, Amazon Alexa, Microsoft Cortana, Apple Siri, … Les assistants vocaux vont redonner la main aux utilisateurs dans leurs recherches de contenus (musiques, films, infos, livres, jeux vidéo, …). Recommandations et marketing vont se retrouver court-circuités.

Les internautes vont donner de la voix, tandis que les industries culturelles risquent
de rester sans voix ! Les assistants vocaux virtuels – au premier rang desquels l’on retrouve Assistant (Google), Alexa (Amazon), Cortana (Microsoft), Siri (Apple) ou encore Bixby (Samsung) – vont non seulement transformer nos vies numériques
et nos objets du quotidien, mais aussi et surtout nous permettre d’aller directement
à l’essentiel et de façon explicite dans nos choix de contenus et de services en ligne.
Et ce, sans surfer sur le Web ni ouvrir moultes applis mobiles, et sans être la cible de publicités « ciblées » ou de recommandations « personnalisées » à tout-va.

Le glas sonore du Web et des applis ?
Notre voix et sa reconnaissance vocale deviennent la nouvelle interface avec Internet : exit le clavier (exigeant du doigté), la souris (fini le scrolling) et l’écran caviardé de suggestions et de promotions plus ou moins intempestives (adieu le surf). Est-ce la fin du Web et des applis mobiles ? Les métadonnées et les cookies – qui puisent leur force de persuasion dans les algorithmes pour nous influencer, voire nous détourner de notre besoin initial, dans le cadre d’opérations marketing ou de campagnes publicitaires – n’ont qu’à bien se tenir. Si les assistants vocaux font autant parler d’eux, c’est que ces systèmes à reconnaissance vocale de plus en plus fiables commencent à s’immiscer progressivement dans nos différents appareils familiers et dotés eux aussi de la voix pour nous répondre : smartphones, haut-parleurs connectés, téléviseurs, réfrigérateurs, équipements à domicile (1), voitures, … Mais c’est dans l’accès aux contenus culturels que le bouleversement pourrait être plus profond et non sans conséquences pour les industries culturelles.
Car l’intelligence artificielle (IA) d’un assistant vocal virtuel sera capable de nous trouver précisément la musique, le film, le livre, le jeu vidéo ou encore l’article de presse que nous recherchons à un instant T. Imaginez Netflix n’obéissant qu’à la voix de son maître (vous l’abonné) pour nous apporter la série et uniquement la série souhaitée (et rien d’autre) : c’est ainsi toute son architecture de recommandations à l’écran basée sur
des métadonnées et algorithmes qui devient… inutile. La conjugaison de l’IA et de l’interface vocale redonne le pouvoir aux internautes et mobinautes dans l’accès aux contenus culturels. Grâce au deep learning, ou apprentissage automatique, la recherche vocale court-circuiterait même de nombreux intermédiaires : moteurs de recherche, médias, éditeurs, prescripteurs, ou encore applications mobiles. Les assistants vocaux pourraient mettre en relation directement le consommateur et le producteur, le mélomane et le musicien, le lecteur et l’auteur, voire toute personne avec la source de l’information recherchée, etc. Ce serait un changement complet de paradigme pour le ecommerce en général (voice shopping) et les industries culturelles en particulier. Cette entrée de la maison et de la voiture dans l’ère du conversationnel n’en est qu’à ses tout débuts. Pour la recherche d’une chanson, par exemple, la reconnaissance musicale de nos enceintes connectées nous trouvera le bon morceau, à l’instar de Shazam, le moment voulu – comme le propose Siri d’Apple et bientôt Google Assistant. Les enceintes connectées Amazon Echo (leader du marché des haut-parleurs intelligents et multifonctions (2)), Google Home ou encore Apple HomePod, en attendant Samsung « Bixby Home », répondent déjà au doigt et à l’œil, … comprenez à votre voix !
Les films, séries et vidéos seront eux aussi commandés de vive voix, comme avec l’écran connecté Echo Show d’Amazon lancé en juin dernier. Le géant du e-commerce s’en est d’ailleurs pris en septembre à Google, accusé d’empêcher d’y regarder YouTube. Selon la société newyorkaise Future Today Institute, c’est en 2023 que la moitié des interactions des utilisateurs avec les contenus multimédias et services numériques se feront par la voix. Ne pas se préoccuper de ce nouvel écosystème à commande vocale pourrait être fatal aux industries culturelles. Par exemple, dans son étude « 2018 Tech Trends for Journalism and Media » publiée début octobre, cet institut parle même de « menace existentielle pour l’avenir du journalisme » (3).

La presse et la radio se mettent à l’audio
En France, le groupe Amaury a annoncé l’arrivée de L’Equipe sur Google Assistant pour smartphones et enceintes connectées. Le quotidien gratuit 20 Minutes (Schibsted) donne, lui, de la voix sur Amazon Echo. En audio : flash infos, jeux et podcasts. Le groupe Radio France, déjà partenaire sur Google Home, est tenté par l’audio d’Amazon Echo. Pour l’heure, ces écosystèmes vocaux sont incompatibles entre eux, exceptés pour Alexa et Cortana suite à un accord Amazon-Microsoft (lire EM@177, p. 2). La bataille du vocal débouchera-t-elle sur un standard international, gage d’interopérabilité pour que tout le monde se parle ? @

Charles de Laubier