• 6 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

Vous pouvez obtenir un certificat de réussite à l'issue de ce cours.

J'ai tout compris !

Mis à jour le 18/12/2017

Restez calme ! Je suis data architect.

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Quand on entend le terme "Architecture Big Data", on se dit peut-être qu'il s'agit d'un concept à la mode mais inutile : un terme vague un peu creux dont la plupart ne connaissent pas le sens exact, bref, un buzzword. Et effectivement, c'est un terme spécialisé mais qui est très galvaudé et dont le sens a été émoussé par son utilisation à tort et à travers dans des publications généralistes.

Et pourtant, les mégadonnées (traduction française de "Big Data") représentent un vrai enjeu à la fois technique, business et de société : l'exploitation des données massives ouvre des possibilités de transformation radicales au niveau des entreprises et des usages. Tout du moins : à condition que l'on en soit techniquement capable... Car l'acquisition, le stockage et l'exploitation de quantités massives de données représentent des vrais défis techniques.

Cependant, il faut être honnête : les innovations réalisées pour adresser ces problèmes ne constituent pas une révolution copernicienne. Non, les outils développés pour résoudre les problèmes des big data ne sont pas des inventions majeures : mais ce sont plutôt leur facilité d'utilisation, leur faculté à passer aisément à l'échelle et leur disponibilité auprès du grand public qui sont intéressantes.

Big Data et lavage à froid

En fait, l'émergence des outils des Big Data, c'est un peu comme l'invention de la machine à laver le linge.

La laveuse électrique, publicité ancienne

En soi, au moment de leur apparition, il ne s'agissait pas d'une innovation majeure, scientifiquement parlant. Mais il s'agit d'un outil puissant qui est un levier de transformations majeures dans le monde.

Mais alors, pourquoi faire un cours complet sur un sujet qui n'est pas plus compliqué qu'une machine à laver ? Disons que concevoir une architecture Big Data, c'est un peu comme construire une machine à laver : si vous êtes livrés à vous-même, vous allez finir par construire une machine à laver qui fonctionne à peu près, après pas mal d'erreurs et de tâtonnements. Peut-être qu'elle va déchirer la moitié des vêtements à chaque lavage, qu'elle consommera autant d'eau qu'une centrale nucléaire et qu'elle sera aussi grosse qu'un camion citerne, mais elle fonctionnera. De la même manière, il y a tellement d'outils autour des mégadonnées que vous pouvez facilement commencer à mettre en place une architecture qui va à peu près tenir la route. Mais est-ce que ça sera une architecture de qualité ? Pour répondre à cette question, il faut d'abord comprendre quels sont les critères à respecter par une bonne architecture :

  • La tolérance aux pannes : il y a fort à parier que votre architecture va être un assemblage de plusieurs composants. Or la loi de Murphy stipule que la probabilité qu'un composant tombe en panne tend vers 1 avec le temps. Il faut donc que votre architecture soit prête à supporter la panne d'un ou plusieurs composants.

  • Une bonne maintenabilité : tout·e développeur·se qui s'est déjà plongé·e dans une base de code "historique" connaît ce sentiment d'effarement et d'horreur mêlés lors de la découverte de fonctionnalités qui ne tiennent que par un échafaudage fragile, effroyablement complexe et impossible à modifier sans prendre mille précautions. C'est le problème tant redouté de la dette technique : en tant que responsable de la conception d'une architecture Big Data, une de vos responsabilités est de minimiser la dette technique que vous allez laisser à vos successeurs. Et minimiser la dette technique, cela revient à produire une architecture qui soit facile à maintenir et à modifier.

  • Un coût faible : étant donnée la facilité avec laquelle on peut désormais déployer des clusters entiers de serveurs à la demande dans le cloud, il est tentant de résoudre tous les problèmes liés au stockage et à l'exploitation des données en se contentant d'augmenter la puissance de calcul et de stockage à disposition. Évidemment, cette solution expéditive requiert des coûts prohibitifs, à l'usage et à la maintenance. Votre responsabilité va être de choisir et de déployer des composants simples, ajustés aux besoins pour minimiser ces coûts.

Data Architects vs The World

C'est pour résoudre ces problèmes que le rôle de Data Achitect a été créé. Ces architectes en mégadonnées sont responsable de la création et de l'administration de tous les systèmes techniques qui vont permettre la bonne exploitation des données.

D'aucuns voient les data architects comme les plombiers ou les mécanos des big data. Personnellement, j'aime bien présenter les data architects comme les personnes qui vont permettre de faire passer à l'échelle l'exploitation des données. Par exemple, on compare souvent les rôles de data architect et celui de data scientist : on peut dire que les data architects vont permettre de faire passer à l'échelle le travail des data scientists : les data scientists conçoivent des algorithmes d'analyse des données qui fonctionne correctement sur leur ordinateur personnel et pour des quantités modestes de données. Les data architects vont mettre à disposition des data scientists des quantités plus importantes de données et vont permettre aux data scientists de s'affranchir des limites de capacité d'une machine pour réaliser les calculs sur une architecture distribuée.

Dramatis personae

Dans ce cours, on ne va pas rentrer dans les détails techniques propres à chaque outil qu'on va présenter. Si vous voulez apprendre à maîtriser sur le bout des doigts un ou plusieurs outils spécifiques aux mégadonnées, il vaut mieux que vous vous référiez aux autres cours du parcours Data Architect :

Par contre, dans ce cours on va apprendre comment ces différents outils peuvent interagir entre eux pour donner naissance à des architectures complètes. Ce cours peut donc être considéré comme une conclusion de la formation au métier de Data Architect, puisqu'il réunit tous les composants qu'on a pu étudier jusqu'ici pour les présenter dans un cadre unifié -- un peu comme le dernier acte d'une tragédie grecque. Mais ce cours peut aussi être utilisé comme une introduction à la formation, en fournissant une vue d'ensemble à garder en tête lors de l'étude des différents outils : cette cartographie permettra de ne pas avoir l'impression de se perdre dans des détails lors de l'exploration des différents outils.

Exemple de certificat de réussite
Exemple de certificat de réussite