La data science (ou science des données en français) et le machine learning (ou apprentissage automatique) sont deux mots très en vogue lorsque l'on parle de la révolution Big Data, de prédiction des comportements ou tout simplement de la transformation numérique des entreprises. Et comme pour tous les domaines innovants, il est parfois difficile de s'y repérer.
C'est pourquoi, avant de rentrer dans le vif du sujet, je vous propose de faire un tour rapide du domaine de la science des données et en quoi elle est devenue une source de valeur ajoutée pour les entreprises.
Qu’est-ce que la data science ?
Pour démarrer, voici une première définition de la data science :
Le premier objectif du data scientist est de produire des méthodes (automatisées, autant que possible) de tri et d'analyse de données, afin d'en extraire des informations utiles.
Le besoin d'un data scientist est apparu pour trois raisons principales :
l'explosion de la quantité de données produites et collectées par les humains ;
l'amélioration et l'accessibilité plus grande des algorithmes de traitement des données ;
l'augmentation exponentielle des capacités de calcul des ordinateurs.
Pour reformuler, l’objectif est de récupérer des données de plusieurs sources différentes et d’en extraire des informations qui vont servir l’entreprise, notamment l’aide à la décision (“data-driven decision”). Une entreprise qui a bien intégré la data science sera capable de pondérer les intuitions humaines à l’aide des nouvelles informations suggérées par les données qu’elle possède.
Mais attention à ne pas tomber dans le fantasme ! Deux composantes sont nécessaires avant de se demander si la data science peut, oui ou non, apporter de la valeur et aider à la résolution d'un problème : des données et une problématique bien définie.
Tout commence par des données
Cela paraît évident, les données constituent la ressource principale pour qu'un data scientist puisse effectuer son travail correctement. Après tout, c'est tout de même le “data” de "data science".
Donc, si dès le départ vous ne voyez aucune manière de récupérer des données liées au problème que vous cherchez à résoudre, considérez que vous ne pourrez n’être d’aucune aide sur ce problème, en tant que data scientist.
Un autre frein est que les données ne sont pas toujours utilisables d’un point de vue éthique ou pour des raisons de sécurité. Pensez à vous assurer que vous pouvez bien exploiter les données pour votre travail.
La valeur d'un data scientist réside aussi dans sa capacité à trouver des manières innovantes de récupérer des données auxquelles on ne penserait pas au premier abord. Faites appel à votre esprit de hacker et essayez de bien réfléchir à la façon de récupérer des données utiles, même s'il ne semble pas y en avoir à première vue. 🤓
Une problématique bien définie
Il existe un spectre assez large de problématiques que l'on peut résoudre en data science. Mais vous pouvez aussi facilement en exclure un certain nombre, surtout si vous vous trouvez dans un milieu d'entreprise, avec des contraintes de temps fortes pour produire des résultats.
Estimer la faisabilité d'un projet est toujours compliqué en data science, et il est normal que cela vous paraisse flou si vous débutez ! Ce n'est qu'en pratiquant, en développant votre propre expérience dans le domaine, que vous arriverez à affiner votre jugement et à redéfinir précisément des problématiques mal définies ou irréalistes, rentables ou non. À la fin de ce cours, vous aurez déjà acquis quelques réflexes à ce sujet !
Une manière de préciser cette problématique en milieu professionnel, c’est de passer par une phase de prototypage qui permet de tester la viabilité et la solidité du projet. Créer un prototype permet rapidement de détecter s’il y a une opportunité car les plus gros obstacles sont écartés : la récupération des données, la formulation du problème à résoudre, une estimation des coûts nécessaires, les difficultés d’implémentation hardware ou software, etc.
Pouvez-vous donner des exemples de problématiques “bien définies” ?
Bien sûr ! Voici quelques exemples que l'on peut estimer réalistes :
Prédire les ventes d'une campagne marketing.
Identifier si une image est déjà présente dans une banque d'image existante.
Segmenter les utilisateurs d'un site en plusieurs groupes en fonction de leur comportement sur le site.
Data Science et analyse de données
En quoi la data science se distingue-t-elle de l’analyse de données classique ? A-t-on vraiment besoin de ce nouveau domaine ?
Le machine learning se distingue dans un premier temps par l’approche utilisée pour résoudre la problématique - la notion d’apprentissage - que l'on va étudier dans la suite de ce cours.
L’analyse de données (“data analysis”), elle, utilise des méthodes issues des statistiques classiques comme les estimateurs, les analyses de corrélations ou encore la régression linéaire.
Pour le data scientist, l’objectif est d’aller plus loin dans les algorithmes d’analyse afin d'obtenir un degré supérieur d'information, notamment grâce au machine learning.
Dans l’exemple ci-dessous, on représente le risque de désabonnement de clients selon deux critères, Drivers A et Drivers B. Là où une analyse de données statistiques classique (la courbe) nous donne simplement une frontière de classification, on voit qu’un algorithme de machine learning (les isobares) peut aller beaucoup plus loin et dépasser les contraintes de linéarité pour fournir une réponse plus précise, avec une carte de risques.

En résumé
La data science est un nouveau domaine de travail, qui augmente les capacités d’analyse classique, afin d’aider les entreprises à prendre des décisions informées. Elle s’appuie pour cela sur des données utiles et ne peut s’appliquer que dans certaines problématiques précises.