Xiaomi, qui a détrôné Apple dans les smartphones, étend son écosystème à sa berline connectée

L’américain Apple en a rêvé ; le chinois Xiaomi l’a fait. L’empire que Lei Jun a fondé il y a à peine 15 ans a non seulement ravi en août à Apple la deuxième place mondiale des fabricants de smartphones, mais il est aussi en passe de réussir le pari d’un « Apple Car » – là où la Pomme a abandonné son projet.

Depuis que le chinois Xiaomi a lancé il y a six mois la commercialisation de sa berline électrique « intelligente » baptisée SU7 (Speed Ultra 7), produite par sa filiale Xiaomi Motors, plus de 27.300 exemplaires ont été livrés durant le second trimestre. « Les attentes sont largement dépassées », s’est félicitée la jeune firme basée à Pékin, dont c’est la toute première voiture, lors de la présentation le 21 août dernier de ses résultats trimestriels.
Ayant dépassé les 10.000 véhicules livrés par mois, son fondateur et président Lei Jun (photo) a décidé d’accélérer la cadence de production, à « 100.000 livraisons d’ici novembre 2024 », en avance sur le calendrier. Sur l’ensemble de cette année, Xiaomi compte avoir livré 120.000 voitures. Mais pas question de s’endormir sur ses lauriers : le « X » de BATX (les GAFAM chinois) finalise un prototype de la SU7 Ultra qui sera lancée en octobre sur le mythique circuit automobile de Nürburgring, en Allemagne. Objectif : « Devenir le véhicule électrique à quatre portes le plus rapide du circuit au cours de la prochaine décennie ». Alors que fin février l’agence Bloomberg révélait l’abandon par la marque à la pomme de son projet de voiture lancé une décennie auparavant (1), l’« Apple Car » de Xiaomi existe, elle, et fait même partie du nouvel écosystème « Human x Car x Home » où les équipements peuvent interagir intelligemment grâce à l’IA.

« Mi » mise sur son écosystème IA unifié
Lancé en février, l’écosystème intelligent « Human x Car x Home » de Xiaomi vise en effet à englober sous son nouveau système d’exploitation HyperOS – successeur de Miui – aussi bien les smartphones ou tout appareils personnels que les objets connectés de la maison (assistants, montre connectée, téléviseur, …), et même désormais la voiture (2). L’intégration de tous ces usages de la vie quotidienne et de l’Internet des objets est rendue possible et fluide par une sorte de moteur IA appelé HyperMind.

Grâce à lui, tous les équipements qui en dépendront vont apprendre des usages de l’utilisateur afin de lui suggérer des actions pertinentes à exécuter. « Nous offrons une expérience intelligente et transparente, qui répond à vos besoins de façon proactive et qui fonctionne comme vous le souhaitez », assure le groupe chinois, dont Lei Jun – 113e fortune mondiale et 20e chinoise (16,8 milliards de dollars, selon Forbes) – détient 24 % du capital. HyperOS est basé sur Linux et utilise des briques Android, tout en intégrant le système « temps réel » Vela que Xiaomi a créé à partir du système d’exploitation real-time et open source NuttX d’Apache.

Smartphones : Xiaomi passe devant Apple
La marque « mi » – abréviation de « Mobile Internet » qui lui fait office de logo – se sent pousser des ailes. Sur le marché mondial des smartphones, Xiaomi peut se targuer d’avoir délogé Apple de la seconde place. Selon Counterpoint Research, c’est au mois d’août que la firme de Pékin s’est hissée sur la deuxième marche du podium mondial des fabricants de smartphones.
Ce n’est pas la première fois que « mi » relègue la firme de Cupertino en troisième position, puisque cela avait déjà été le cas en août 2021. « Xiaomi a remporté en août 2024 la deuxième place en termes de volumes de vente de smartphones à l’échelle mondiale, même si ses volumes de ventes sont restés stables au cours de ce mois, par rapport au déclin saisonnier d’Apple pendant la même période », précise le cabinet d’études hong-kongais le 14 septembre dernier. Et d’après lui, « mi » a été l’une des marques de smartphones à la croissance la plus rapide en 2024, aidant le marché mondial – qu’elle a « surperformé » – à se placer sur la voie de la reprise. « Xiaomi est particulièrement fort dans les fourchettes de prix inférieures, c’est-à-dire à moins de 200 dollars, plus encore après le lancement de ses appareils 5G à prix compétitif Redmi 13 et Note 13. Les appareils Redmi ont été extrêmement populaires, aidant Xiaomi à gagner des parts de marché, en particulier en Inde, en Amérique latine, en Asie du Sud-Est et au Moyen-Orient et en Afrique », constate Tarun Pathak, directeur de recherche chez Counterpoint Research (3).
Mais la baisse saisonnière d’Apple, qui a profit à Xiaomi en août, ne devrait sans doute pas se prolonger au mois de septembre dans la mesure où la marque à la pomme a dévoilé le 9 septembre deux versions de son nouvel iPhone 16, conçus avec le « système d’intelligence personnel » Apple Intelligence et d’autres innovations (4). La Pomme devrait donc retrouver sa deuxième position et « mi » sa troisième. Mais le chinois n’a pas dit son dernier mot face au californien. « Si les smartphones de niveau d’entrée à milieu de gamme continuent de présenter de bonnes performances pour Xiaomi, [le fabricant] a également fait des percées dans le segment haut de gamme avec des appareils pliables [comme le Mix Flip, ndlr] et ultra [comme le Mi 11 Ultra, ndlr] », souligne Tarun Pathak. Et le 26 septembre, de Berlin, Xiaomi a lancé la série 14T à photographies haut de gamme avec optique Leica et IA avancée (5). Repasser devant Apple : mission impossible ? (en référence au logo « mi » qui peut signifier « mission impossible » justement). Une chose est sûre : la concurrence sur le marché mondial des smartphones ne s’est jamais autant intensifiée, avec l’arrivée des modèles IA et la montée en charge des pliables en deux popularisés par Samsung (Galaxy Z Fold), voire en trois lancés par Huawei en septembre (Mate XT). Dans cette course aux « tri-fold », Xiaomi a déposé son brevet auprès de la China National Intellectual Property Administration (Cnipa), d’après plusieurs sources (6). En attendant, le PDG de Xiaomi a annoncé le 19 septembre sur X que le « bi-fold » haut de gamme Mix Flip va être lancé sur les marchés mondiaux en cette fin septembre (7).
Entre ses smartphones à succès capables de coiffer au poteau la marque à la pomme et sa première voiture électrique ayant démarré sur les chapeaux de roues, le tout dans un écosystème intelligent et unifié à tous ses produits, Lei Jun a convaincu le magazine Time.
Dans son Top 100 publié le 30 mai dernier, l’hebdomadaire américain a désigné Xiaomi comme étant « l’une des entreprises les plus influentes en 2024 » : « La berline électrique SU7 de Xiaomi, lancée en mars, peut être [considérée comme] la première voiture fabriquée par une entreprise de téléphonie. Le géant chinois de l’électronique – qui fabrique des ordinateurs, des appareils portables, des aspirateurs robotisés, des scooters et des téléphones (il était numéro 3 dans le monde en 2023, après Apple et Samsung) ne voit rien d’étrange à cela. Au contraire, il considère le SU-7 comme une extension des écosystèmes électroniques des clients » (8). Lei Jun réussit à concurrencer frontalement à la fois Apple et Tesla. Mais la route sera longue avant de détrôner éventuellement le constructeur automobile d’Elon Musk, comme il l’a fait par deux fois pour le fabricant dirigé par Tim Cook.

Vers les 50 milliards de dollars en 2024
Si Xiaomi enchaîne les records de chiffre d’affaires trimestriels, comme au second trimestre 2024 présenté le 21 août avec une croissance de plus de 30 % sur un an, alors le groupe chinois pourrait terminer l’année avec un total de près de 50 milliards de dollars (contre 37,3 milliards en 2023), et une rentabilité nette de près de 3 milliards de dollars (contre 2,6 milliards en 2023), d’après les estimations des analyses. Pour l’heure, la capitalisation boursière de « mi » – société cotées depuis juin 2018 à la Bourse de Hong Kong – s’élève à 62,8 milliards de dollars (9) (au 27-09-24) – certes, encore bien loin des près des 3.459 milliards de dollars d’Apple et des 812,1 milliards de Tesla. @

Charles de Laubier

Entraînement de modèles d’IA grâce aux données collectées par web scraping : les règles à suivre

Les plaintes à l’encontre de fournisseurs de systèmes d’IA se multiplient, que ce soit pour violation des droits de propriété intellectuelle ou pour manquements en matière de données à caractère personnel, notamment en lien avec leurs pratiques de collecte de données en ligne (web scraping).

Par Sandra Tubert et Laura Ziegler avocates associées, Algo Avocats

Afin de développer un système d’intelligence artificielle (IA) performant, il est nécessaire d’entraîner en amont les modèles qui le composent au moyen de vastes ensemble de données. Constituer ces ensembles de données d’entraînement représente donc un enjeu majeur pour les fournisseurs de systèmes d’IA. Plusieurs alternatives s’offrent à eux : utiliser les bases de données dont ils disposent en interne ; obtenir des licences auprès de titulaires de droits de propriété intellectuelle sur des contenus pertinents ; ou recourir au web scraping pour récupérer des données accessibles en ligne sur différents sites Internet.

Exception de Text and Data Mining
Cette troisième option, le web scraping (« moissonnage des données »), a connu un essor important ces dernières années. Pour autant, bon nombre d’acteurs récupèrent des données en ligne pour entraîner leurs modèles sans appréhender tous les enjeux et problématiques qui y sont attachés. Alors que plusieurs plaintes ou enquêtes d’autorités visent des fournisseurs de modèles d’IA à usage général pour des allégations de violation des droits de propriété intellectuelle ou de manquements au règlement général sur la protection des données (RGPD), l’entrée en vigueur prochaine du règlement européen sur l’intelligence artificielle – l’AI Act dont le texte final (1) a été signé le 13 juin 2024 – pourrait mettre en évidence les problématiques entourant les sources de données utilisées pour entraîner les modèles.

En effet, l’article 53 et l’annexe XI de l’AI Act imposent, entre autres, aux fournisseurs de modèles d’IA à usage général (2) de mettre à disposition des informations sur les données utilisées pour l’entraînement de ces modèles, au moyen d’un document-type qui sera mis à disposition par le bureau de l’IA (AI Office). Ils doivent notamment indiquer comment ces données ont été obtenues et sélectionnées, ainsi que toutes les mesures prises pour détecter les sources de données inadéquates. Pour pouvoir se conformer de manière sereine à ces nouvelles exigences (3), il est indispensable de s’assurer que les données d’entraînement ont été récupérées et collectées dans le respect des droits de propriété intellectuelle et du RGPD, sous peine de risquer des actions en contrefaçon ou des procédures de sanction devant les autorités de contrôle (4). En effet, le contenu d’un site Internet qu’un acteur entend scrapper (« moissonner ») pour constituer une base de données d’entraînement peut à la fois contenir des données à caractère personnel, mais également être protégé au titre du droit d’auteur (5) ou du droit des bases de données (6). Or, par principe, toute reproduction et utilisation d’un contenu protégé par un droit de propriété intellectuelle nécessite d’obtenir l’autorisation du titulaire des droits concernés. Néanmoins, afin de favoriser le développement de l’IA, le code de la propriété intellectuelle (CPI) a introduit, pour le droit d’auteur et le droit des producteurs de bases de données, les exceptions de fouilles de textes et de données (dites de Text and Data Mining) qui permettent de scrapper des données à des fins d’entraînement des modèles, sous réserve de respecter un certain nombre de conditions. Il y a en réalité deux régimes : la fouille de textes et de données à des fins de recherche scientifique (7) et celle à des fins diverses (8).
L’exception de fouille à des fins de recherches scientifique présente l’avantage d’être un droit absolu (le titulaire des droits ne peut pas s’y opposer), sous réserve que l’accès aux données soit réalisé de manière licite (9). Néanmoins, son périmètre est relativement restreint puisque seuls peuvent s’en prévaloir certains acteurs limitativement énumérés (10). La plupart des fournisseurs de systèmes d’IA ne peut donc pas mobiliser cette exception et doit se rabattre sur l’exception générale dite à des fins diverses. Pour pouvoir invoquer le bénéfice de cette exception générale, le fournisseur de système d’IA doit accéder aux données de manière licite et s’assurer que le titulaire des droits de propriété intellectuelle ne s’y est pas opposé.

« Moissonnage » et données personnelles
Les textes précisent que l’opposition du titulaire des droits « n’a pas à être motivée et peut être exprimée par tout moyen », notamment « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation » (11). Pour l’opposition via des procédés techniques, plusieurs outils existent (Robot.txt, AI.txt, TDMRep, …). En pratique, cela signifie que pour pouvoir scrapper les données des sites Internet à des fins d’entraînement des modèles, les fournisseurs de systèmes d’IA ne doivent pas contourner les éventuels dispositifs de protection existants (par exemple un accès restreint par un compte utilisateur) et doivent s’assurer, au moment de l’extraction des données, que les conditions générales d’utilisation (CGU) et/ou mentions légales du site Internet ne contiennent pas de clause interdisant l’extraction des données et que les métadonnées du site Internet n’expriment pas non plus une telle interdiction. L’AI Act confirme ce dernier point (12).
Lorsqu’un titulaire de droits s’est opposé à l’extraction de ses données, le fournisseur de système d’IA n’a d’autre choix que d’obtenir une autorisation expresse (13) au moyen d’un accord de licence ou de partenariat, comme ont récemment pu le faire OpenAI avec Le Monde, Die Welt et El País (14). Une fois ces vérifications opérées, le fournisseur de système d’IA devra suivre des étapes supplémentaires si le contenu qu’il souhaite « moissonner » contient des données à caractère personnel, afin de respecter le RGPD.

Base légale de l’intérêt légitime
Ces derniers mois, la Cnil a publié plusieurs fiches pour guider les fournisseurs de systèmes d’IA (15) au sein desquelles elle clarifie comment appliquer les principes clefs aux spécificités de l’IA. Elle y admet qu’il est possible de fonder les traitements d’entraînement des modèles d’IA sur la base légale de l’intérêt légitime, notamment lorsque les données sont collectées à partir de sources publiques (16), sous réserve de mener une analyse au cas par cas permettant de documenter la légitimité de l’intérêt poursuivi, sa nécessité et le fait qu’il n’y a pas d’atteinte disproportionnée aux intérêts, droits et libertés des personnes. Pour autant, en juin 2024, Noyb a porté plainte – auprès de onze « Cnil » en Europe – contre Meta dont il conteste la faculté de se fonder sur l’intérêt légitime pour récupérer les données de Facebook et Instagram afin d’entraîner ses modèles d’IA. Dans l’attente, Meta a stoppé son projet (17).
La première étape avant de scrapper des données à caractère personnel est de définir la finalité du traitement, à partir de laquelle l’analyse de conformité aux principes de protection des données personnelles pourra être réalisée. A partir de cette finalité (créer une base de données afin d’entraîner des modèles d’IA permettant d’évaluer l’appréciation d’œuvres par le public, développer un LLM capable de répondre à des questions, générer du texte, effectuer des résumés, etc,…), le fournisseur de modèles d’IA devra s’assurer du respect du principe de minimisation, en ne collectant que les données pertinentes et nécessaires pour atteindre son objectif. Concrètement, cela signifie qu’il doit s’interroger en amont sur les catégories de données nécessaires pour l’entraînement du modèle d’IA. En pratique, il devra définir les catégories de données à collecter et mettre en place des filtres permettant d’exclure la collecte de certaines données. Dans sa fiche dédiée au web scraping (18), la Cnil précise que dans l’hypothèse où des données non pertinentes seraient collectées malgré les filtres mis en place, il convient de supprimer ces données, immédiatement après leur collecte ou dès elles ont été identifiées. Elle appelle également à la prudence sur la collecte automatique de données sensibles en invitant les fournisseurs à appliquer des filtres permettant d’écarter la collecte de données sensibles (19) non pertinentes ou à exclure de leurs activités de scraping certains sites comportant par nature ce type de données.
Respecter le RGPD suppose, par ailleurs, d’informer les personnes concernées et de faciliter l’exercice de leurs droits. La Cnil reconnaît (20) qu’en cas de collecte parweb scraping, une information individuelle des personnes pourrait, dans certains cas, être disproportionnée et donc non obligatoire. Elle recommande alors au fournisseur du système d’IA de fournir une information générale (par exemple au sein de sa politique de confidentialité) contenant notamment les catégories de sites sources utilisés avec des liens hypertextes vers ceux-ci, en proposant un modèle dédié. Pour les droits des personnes, elle rappelle qu’un responsable du traitement n’a pas à conserver ou collecter des informations supplémentaires qui ne lui sont pas nécessaires dans le seul but de permettre l’exercice des droits. La Cnil propose néanmoins des exemples de mesures que les fournisseurs de modèles d’IA pourraient mettre en place pour faciliter l’exercice des droits (comme la conservation de métadonnées ou d’informations sur la source des données pour faciliter la recherche d’une personne au sein de la base ou l’indication aux personnes des données à fournir pour les identifier).
La Cnil propose enfin de mettre en place des mesures supplémentaires pour garantir l’équilibre attendu de ces traitements basés sur l’intérêt légitime. Certaines mesures découlant des règles précédemment citées semblent réalisables : exclure par défaut la collecte à partir de certains sites contenant des données intrusives ; prévoir la possibilité de s’opposer au traitement de manière discrétionnaire ; appliquer des procédés d’anonymisation ou de pseudonymisation après la collecte des données. D’autres semblent moins pragmatiques.

AI Office : recommandations très attendues
Certains acteurs pourraient ainsi saisir l’opportunité de remonter leurs questionnements, difficultés pratiques, appréciation des règles dans le cadre de la consultation publique à laquelle sont soumises certaines fiches jusqu’au 15 septembre 2024 (21) ou répondre au questionnaire (22). A l’aune de l’entrée en vigueur de l’AI Act, les fournisseurs de modèles d’IA à usage général attendront donc les précieuses recommandations et modèles du bureau de l’IA, tout récemment créé (23), sur les documents à produire pour les sources de données d’entraînement, afin de leur permettre d’engager les travaux nécessaires à la compilation de ces informations. @