• 20 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

Ce cours est en vidéo.

Vous pouvez obtenir un certificat de réussite à l'issue de ce cours.

J'ai tout compris !

Mis à jour le 01/02/2019

Voyagez dans l’écosystème du Big Data

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Les 3V du Big Data

Après tout, qu'est-ce qui distingue une application big data d'une application small data ? On pourrait être tentés de penser qu'il suffit de faire grossir une infrastructure en ajoutant des processeurs, de la RAM et de l'espace disque pour qu'elle soit en mesure de résoudre des problèmes utilisant 10, 100 ou 1000 fois plus de données. Et dans une certaine mesure, c'est vrai : dans certains cas bien précis, les outils small data passent bien à l'échelle.

Cependant, le passage à l'échelle s'accompagne quasiment toujours d'une transformation des usages que l'on résume par les 3V du big data : Volume, Vélocité, Variété. Les 3V caractérisent des phénomènes qui requièrent des réformes des outils et des méthodes utilisés dans une application small data.

  • Le Volume des données générées nécessite de repenser la manière dont elles sont stockées.

  • La Vélocité à laquelle nous parviennent ces données implique de mettre en place des solutions de traitement en temps réel qui ne paralysent pas le reste de l'application.

  • Les données se présentent sous une grande Variété de formats : ces données peuvent être structurées (documents JSON), semi-structurées (fichiers de log) ou non structurées (textes, images). L'ingestion, l'analyse et la rétention de ces données prendront des formes différentes selon leur nature, ce qui implique de mettre en place des outils appropriés.

Vous l'aurez compris, les 3V nécessitent d'utiliser des outils assez spécifiques. Est-ce que cela signifie que des outils ont été créé exprès pour le Big Data ? Oui, il y en a quelques uns…

La Grande Galerie du Big Data

Tous droits réservés 451 Research
Tous droits réservés 451 Research

L'illustration ci-dessus (cliquez ici pour zoomer) est un plan élaboré à partir des différents outils qui ont été développés pour traiter du big data ; comme vous pouvez le voir, il y en a un nombre plutôt conséquent ! Les outils présentés sont organisés sous la forme d'un plan de métro dont les lignes se croisent ; un grand nombre d'outils appartiennent à plusieurs catégories à la fois et se trouvent donc sur plusieurs lignes différentes. Par exemple, un grand nombre d'outils de l'écosystème Hadoop (ligne violette) sont disponibles as-a-service (ligne verte), c'est-à-dire dans le cloud.

A voir cette carte, on peut se sentir débordé : il paraît complètement impossible d'apprendre à maîtriser ne serait-ce que le dixième de cette gigantesque boîte à outils ! Et rassurez-vous, ce n'est pas ce que nous espérons faire dans ce cours. ;)

En seconde analyse, on se rend compte qu'un grand nombre de points sur ce plan sont extrêmement proches et appartiennent aux mêmes lignes : c'est donc qu'ils doivent avoir des fonctionnalités bien similaires…

On a vraiment besoin d'une telle pléthore d'outils, dont un grand nombre sont probablement redondants ?

Là non plus, ce n'est pas une question que nous allons trancher ici, mais elle nous permet de noter un point important : s'il est quasi-impossible de connaître tous les outils big data qui existent, il appartient aux data architects d'être capable d'identifier les différentes catégories d'outils qui existent, ainsi que les similitudes entre les solutions existantes. La plupart des outils n'ont rien d'unique : tout ou partie de leurs fonctionnalités sont couvertes par d'autres.

C'est ce que nous allons voir dans le reste de ce cours, en l'occurence des outils qui permettent de réaliser des calculs distribués.

Exemple de certificat de réussite
Exemple de certificat de réussite