• 6 hours
  • Easy

Free online content available in this course.

course.header.alt.is_video

course.header.alt.is_certifying

Got it!

Last updated on 11/16/18

Maîtrisez l’impact du data management sur le SI

Log in or subscribe for free to enjoy all this course has to offer!

Les chiffres donnent le vertige : chaque minute, environ 350 000 tweets, 15 millions de SMS et 200 millions de mails sont envoyés au niveau mondial. Pendant le même laps de temps, des dizaines d’heures de vidéos sont mises en ligne sur YouTube, des centaines de milliers de nouveaux fichiers sont archivés sur les serveurs de Facebook.

Les nouveaux usages suivent : une sauvegarde de vos films sur un disque dur externe ? Une photo partagée sur les réseaux sociaux ou une géolocalisation depuis votre smartphone ? Ce sont autant de données qui viennent s’ajouter à la masse enregistrée sur les ordinateurs et les serveurs du monde entier. Même la façon de les interroger devient information : notre historique de navigation sur le Web, nos recherches sur Google…

Les ordres de grandeur précédents mettent en évidence le Big Data dont l’exploration est en train de créer une nouvelle science qui chamboulera profondément le fonctionnement des organisations.

Toutes ces données sont produites en temps réel, par l’ensemble des SI installés dans le monde. Eux-mêmes sont composés des éléments les plus divers : des automates industriels, des robots, des téléphones, des caméras, des objets connectés, des capteurs, des puces électroniques… 

On peut distinguer deux grandes familles de données :

  • celles qui ne nous concernent pas directement en tant qu’être humain. Il s’agit principalement des données d’ordre technique et scientifique ;

  • celles dont nous sommes en réalité la matière première. Il s’agit des données que nous fournissons, volontairement ou pas tout au long de notre vie quotidienne. Il peut s’agir de nos déplacements, de la musique que l’on écoute, des séries qu'on regarde, de ce qu'on achète, de ce qu'on lit, des sites Web que l’on visite ou des photos que l’on poste sur son réseau social préféré.

Pour bien comprendre les enjeux liés aux Big Data, je vous propose de voir ses usages ainsi que ses solutions de stockage, avec le Data Warehouse et le Data Lake.

Les usages du Big Data

Aujourd’hui, l’enjeu est de pouvoir exploiter le plus finement possible ces données. Pour cela, le Big Data offre différents usages aux entreprises :

  • le reporting d’organisation ;

  • l’analyse en temps réel ;

  • la data discovery ou exploration de données ;

  • et l’analyse prédictive.

Voyons cela plus en détail !

Le reporting d’organisation

Dans toutes entreprises ou organisations, les équipes de direction ont besoin d’informations concrètes et chiffrées pour définir ou évaluer une stratégie. En effet, elles ont besoin que leur équipe mette régulièrement à leur disposition d’un grand nombre de personnes des rapports de suivi et de pilotage de l’organisation, dont les chiffres sont :

  • vérifiés et validés,

  • reproductibles dans le temps (une même analyse produite à des périodes différentes doit présenter les mêmes résultats)

  • auditables (le cheminement pour générer le résultat est connu et documenté).

Par exemple, vous comprenez l'intérêt pour la direction d’une entreprise comme McDonald's de disposer d’éléments chiffrés par pays ou par région dans le cas du lancement d’un nouveau produit à l'échelle mondiale.

L’analyse en temps réel

Ensuite, le deuxième usage du Big Data pour les entreprises est l’analyse en temps réel. C’est probablement l’usage premier des Big Data.

Par exemple, cela permet d'identifier en temps réel la défaillance d’un équipement pour permettre une intervention corrective rapide.

C’est également l’application d’algorithmes prédictifs, qui vont permettre d’anticiper la survenance de ces défaillances et de déterminer plus efficacement les politiques de maintenances préventives.

Les données exploitées sont, de manière générale, brutes et adressées via des développements spécifiques.

La « Data Discovery » ou exploration de données

Un autre intérêt du Big Data est d'offrir plus d’autonomie à l’utilisateur dans la manipulation de ses données. Vous entendrez parler de solutions dites de Business Intelligence Agile (BI Agile) ou encore de Data Visualisation (que l’on appelle aussi DataViz).

Sans être exhaustif, car le nombre d’acteurs est particulièrement important et en croissance constante, les éditeurs majeurs sont Tableau Software, Qlik ou encore Microsoft avec PowerBI.

Ces solutions cherchent à libérer les utilisateurs des contraintes imposées par les sources de données et les logiciels associés.

Comment font-elles cela ?

En leur donnant la possibilité d’analyser eux-mêmes et sans recours aux équipes informatiques les données dont ils ont besoin et, en croisant, le cas échéant, les données standardisées de l’organisation avec leurs propres jeux de données.

La population susceptible d’exploiter ces solutions est plus restreinte et de type analyste ou administrateur fonctionnel de données.

Par exemple, la police utilise ces techniques pour caractériser les crimes et les comportements des criminels afin de prévenir le crime, limiter les risques et les dangers pour la population. Les entreprises de marketing utilisent l’exploration de données pour réduire le coût d'acquisition d'un nouveau client.

L’analyse prédictive

Le dernier usage du Big Data est l’analyse prédictive.

Dans le prolongement de la data discovery, la multitude des données existantes et utilisables par l’organisation permet plus facilement de mettre en œuvre des algorithmes statistiques et prédictifs.

Par exemple, dans le domaine financier, chaque portefeuille contient en son sein un ensemble de clients à risque qui ne remplissent pas leurs obligations à temps. L'institution financière doit entreprendre des actions de recouvrement pour encaisser les sommes dues. Un grand nombre de ressources est gaspillé pour des clients dont les sommes dues sont difficiles, voire impossibles à recouvrir. L'analyse prédictive peut aider à optimiser les sommes allouées au recouvrement en identifiant les agences les plus efficaces, les stratégies de contact, les actions judiciaires et autres pour chaque client, afin d'augmenter le taux de recouvrement tout en réduisant les coûts.

Un autre secteur utilise cette méthode : le secteur de la santé pour anticiper les évolutions probables de certaines maladies.

Le secteur de l'énergie est également un domaine d'application important, avec notamment le développement de réseaux électriques intelligents, les « smart grids ». La consommation d'énergie peut en effet être estimée sur la base de schémas de comportement des clients enregistrés afin de réguler avec précision l'apport nécessaire d'énergie.

Ces analyses sont majoritairement réalisées par des profils experts. La population d’utilisateurs est relativement restreinte, de type statisticien ou « Data Scientist ». Ces experts sont parfois dans les équipes marketing ou au sein de la DSI. Ils ont une maîtrise parfaite des contraintes et des enjeux métier de l’entreprise.

Ils travaillent sur des développements spécifiques ou des solutions de « Data Science » (comme DataIku, Alteryx, RapidMiner…) et des langages statistiques comme R.

Contraintes sur le SI

Quel que soit l’usage qu’offre le BigData à l’entreprise, toutes ces données doivent être stockées et être accessibles le plus simplement possible.

Les besoins de reporting fiables, standardisés et accessibles à une large population d’utilisateurs restent bien présents dans les entreprises et ne peuvent être pris en charge de façon satisfaisante autrement que par une architecture spécifique. La DSI doit donc mettre en place une architecture adaptée.

Comment cela fonctionne-t-il ?

Un ensemble de sources de données hétérogènes nourrit une architecture de stockage (le Data Lake). À partir de ce stockage, des outils permettent de réaliser de l'analyse en temps réel ou prédictif ou réalisée à partir du data discovery. Enfin, grâce à des mécanismes de transformation de la donnée (ETL : Extract Transform and Load, Extraction, transformation et chargement de donnée), on peut remplir un entrepôt de données (Data Warehouse) à partir duquel on extrait le repoting d'entreprise.

Au-delà des usages du Big Data, la DSI doit donc implémenter les composants qui rendent le Big Data et ses usages possibles : le Data Warehouse et le Data Lake.

Vous l’aurez compris, la prise de décisions stratégiques dans une entreprise nécessite le recours et le croisement de multiples informations qui concernent tous les départements : production, RH, finances, achats, etc.
Or la plupart de ces données sont généralement éparpillées au sein des différentes divisions et non connectées entre elles et hétérogènes dans leur format et leur structure.

Par exemple, un catalogue de produits est conçu pour permettre une recherche efficace. Le système décisionnel quant à lui souhaite connaître l’organisation des produits et croiser le catalogue avec les ventes.

Le data Warehouse et le Data Lake sont une solution à cette ambiguïté ! Voyons-les en détail !

Le Data Warehouse

Le Data Warehouse, littéralement l'entrepôt de données, est une base de données relationnelle, pensée et conçue pour :

  • les requêtes et les analyses de données,

  • la prise de décision ;

  • les activités de type Business Intelligence davantage que pour le traitement de transactions ou autres usages traditionnels des bases de données.

Les informations stockées dans la Data Warehouse sont historisées et offrent une vue d’ensemble des différentes transactions qui ont eu lieu au fil du temps.

En plus d’une base de données relationnelle, un environnement Data Warehouse intègre un outil d’extraction, de transport, de transformation et de chargement de données (ETL). On retrouve aussi des outils d’analyse client et d’autres applications permettant de gérer le traitement des données collectées.

Le Data Lake

Les Data Lakes sont une évolution naturelle de la technologie Big Data. Il s’agit d’un nouveau concept de stockage de données qui s’inscrit dans une logique contemporaine d’agilité et d’optimisation dans la gestion de données.

Un Data Lake repose sur la possibilité de fournir un stockage global de l’ensemble des données présentes dans l’entreprise tout en y effectuant le moins de traitements possible.

Les données ainsi stockées sans classifications ni transformations aucune, peuvent être de tout type :

  • des données structurées venant d’une base de données relationnelle comme MySQL ou SQL Server,

  • des données semi-structurées (CSV, XML, JSON…),

  • des données non structurées (E-Mail, PDF, documents…),

  • des données binaires (images, audios, vidéos…).

L’entreprise y trouve donc une plateforme fédératrice qui offre de nouvelles solutions économiques pour répondre aux contraintes des technologies du Big Data.

Le Data Lake est par exemple au cœur du fonctionnement des compteurs connecté Linky en cours d’installation dans toute la France par Enedis. Ces derniers relèvent différents types d’informations sur la consommation, la puissance allouée, les défauts de sécurité et facilitent l’intervention des équipes de maintenance.

Bien qu’en cours de stabilisation, le paysage technologique évolue encore beaucoup. Nous vivons probablement aujourd’hui la même révolution que celle vécue il y a 30 ans avec la démocratisation de la base de données relationnelle, c’est-à-dire vos données !

À titre d’exemple, la plus importante fuite de données de l’histoire (Plus de 25 terabytes de données sensibles [adresse, orientation politique...] concernant 198 millions de citoyens américains) provient de la fuite d’un Data Lake. La DSI doit donc faire très attention à ce sujet très sensible pour le moment.

Au travers de ce chapitre, vous avez vu les principaux enjeux auxquels les SI font face : les aspects sécurité, les nouvelles méthodes de conduite de projet promues par la transformation agile et les contraintes dues à l’émergence du Big Data.

Nous arrivons à la fin de ce cours qui vous a permis d’appréhender :

  • Quel est le rôle d’un SI ;

  • Comment les entreprises se sont organisées pour le faire vivre ;

  • Quelles sont les principales missions autour du SI ;

  • Quelles sont les évolutions futures qui dessinent les SI de demain ?

En résumé

  • Le BigData représente l’accumulation de données produites par l’utilisation de tous les SI qui nous entourent.

  • L’utilisation du BigData peut servir à :

    • la production de rapport afin d’aider dans la prise de décisions ;

    • l’analyse en temps réel pour surveiller et anticiper des comportements à venir, comme la panne d’un moteur ;

    • aider des populations non techniques dans la découverte de nouvelles données ;

    • prévoir des situations à venir, comme la météo par exemple.

  • Les données exploitées par le Big Data sont regroupées dans des Data Warehouse ou des Data Lakes afin de les rendre plus ffacilement accessibles.

  • Le Big Data représente un enjeu majeur pour le SI, car il impacte fortement les architectures et les usages des entreprises.

Example of certificate of achievement
Example of certificate of achievement