Le Big Data Bang

Rien moins que le déluge ! Déluge numérique, déferlement de données, avalanche d’informations : les chiffres qui nous donnaient le tournis il y a à peine dix ans, nous semblent ridicules aujourd’hui. Pourtant, en 2010, on estimait que l’humanité – en produisant l’équivalent de 1.000 exabytes – faisait son entrée dans l’ère du zettabyte : un zettabyte équivalant à 1 milliard de terabytes. La croissance a été au rendez-vous, puisqu’en 2020 nous en sommes déjà à plus de 35 zettabytes ! Cette augmentation exponentielle est le résultat d’un emballement général. Les réseaux qui structurent le Web sont de plus en plus nombreux : après les données des institutions et des entreprises sur le Web de première génération, les données personnelles ont déferlé sur la Toile, amplifiées par la banalisation des réseaux sociaux diffusés sur tous les terminaux et les services mobile.
A cela, s’est ensuite ajouté le flux massifs d’informations libérées, comme les données publiques mises en ligne par les Etats ou les collectivités locales. Puis, ce fut au tour des milliards de « data » générés par l’Internet des objets. Nous apprenons à naviguer dans un espace numérique presque infini, composé de données hétérogènes : données non structurées, venues du monde entier, de plus en plus souvent produites en temps réel
et généralement taguées de mots-clés, de dates, de lieux, …

« Les algorithmes sont en mesure de faire émerger les motifs cachés des entrailles du Web : un Deep Web qui représente 90 % de l’ensemble du Net »

Le Web peut-il cependant se réduire à une addition vertigineuse de bytes, plus petite unité adressable d’un ordinateur ? Alors que les contenus qui le composent sont de plus en plus diversifiés : informations, textes, images ou vidéos. Aurions-nous mal apprécié la nature profonde du Web ? D’un côté, nous avons un Internet toujours plus complexe aux outils hyper sophistiqués faisant appel aux technologies du web sémantique, du web des émotions ou du web cognitif. De l’autre côté, le web des data offres déjà de nouvelles perspectives étourdissantes. Basé sur la loi des grands nombres, une nouvelle génération d’outils préfère s’appuyer sur la force brute des ordinateurs plutôt que de faire appel à des modèles bien conçus. De plus en plus nombreux sont ceux pensant que c’est perdre son temps que de chercher à comprendre, quand il est bien plus efficace d’utiliser les bonnes vieilles recettes de la statistique pour faire parler ces montagnes de données plus ou moins structurées. L’histoire semblent leur donner raison, dans la mesure où plus l’on dispose de data, plus les algorithmes sont en mesure de faire émerger les motifs cachés des entrailles du Web des profondeurs : un Deep Web qui représente 90 % de l’ensemble du Net, comme la face immergée d’un iceberg géant.
De nombreux services phares du Net bénéficient de la puissance du Big Data, comme
le search, les services de traduction ou de recherche d’images. Dans la masse des données, il y a sûrement des données similaires qu’il suffit d‘extraire pour traduire une phrase du chinois vers l’anglais ou compléter la partie manquante d’une photo. Des laboratoires y ont travaillé durant cette dernière décennie et de nombreuses entreprises se sont lancées dans cette nouvelle ruée vers l’or, que certains analystes présentent comme une quête du Graal pour la compétitivité et la productivité. Des start-up se lancèrent dans l’aventure, tandis que les géants comme IBM, Google ou Amazon multipliaient les achats stratégiques de ces briques technologiques aux noms étranges : Hadapt, Cloudera, Factual, DataStax, Pervasive DataRush, Infochimps, Citrusleaf, 1010data, … C’est finalement l’avènement d’une nouvelle informatique qui est en train
de se jouer. La mise en place d’un écosystème organisant la gestion de cette masse
de données en expansion constante dans le Cloud, stockée dans des « datacenters », véhiculée à très haut débit et traitée par des ordinateurs surpuissants. L’un des enjeux étant bien de mettre à la portée du plus grand nombre une nouvelle génération d’applications combinant, entre autre, la puissance du datamining et de la datavizualisation. Comme autant de Dédale modernes essayant de comprendre les arcanes de ce Labyrinthe planétaire numérique qu’ils ont participé à construire. @

Jean-Dominique Séval*
Prochaine chronique « 2020 » : Les jeux vidéo online
* Directeur général adjoint de l’IDATE.
Sur le même thème, l’IDATE a publié son rapport
« Le futur de l’Internet », par Vincent Bonneau.