Pour débuter cette deuxième partie, nous allons faire le pont entre les différentes catégories de problèmes de machine learning que vous venez de découvrir et les différentes problématiques métier auxquelles sont souvent confrontées les entreprises.
Voyons ensemble quelques exemples concrets.
Affectez un score à un client
Le scoring est une technique répandue dans le domaine du marketing. Le score obtenu traduit généralement la probabilité qu'un individu réponde à une sollicitation marketing ou appartienne à la cible recherchée (par exemple, la probabilité qu'un prospect devienne un client payant, ou qu'un client fasse défaut – c'est-à-dire ne rembourse pas un crédit dans le cas d'une banque ou d'une assurance).
Le scoring est le plus souvent associé aux méthodes de régression, supervisée ou non supervisée selon les données d'entraînement.
Autrefois à la charge de statisticiens, c'est maintenant souvent au data scientist qu’il incombe la charge de noter les clients. Ce type de scoring s'effectue en général grâce à un certain nombre de caractéristiques qui définissent le client (âge, genre, ville, etc.).
Pourquoi n'est-ce pas resté à la charge des statisticiens ? Qu'est-ce que la data science peut faire de plus ?
Une phrase résume très bien la distinction entre statisticien et data scientist :
Data Scientist : Une personne qui est meilleure en stat qu'un développeur, et meilleure en programmation qu'un statisticien.
Disons que le débat est toujours ouvert mais que, pour faire simple, ce qui peut distinguer un data scientist d'un statisticien c'est sa capacité à mieux écrire du code et déployer des algorithmes en production, et à l'inverse son attachement moins strict à la rigueur statistique sous-jacente aux algorithmes.
Prédisez la rentabilité d’une campagne marketing
Les entreprises ont souvent besoin d’évaluer le ROI (retour sur investissement) d’une campagne – ou simplement d'en comparer plusieurs – avant de la lancer, afin d’estimer si le jeu en vaut la chandelle. C’est aussi une méthode utilisée par les régies publicitaires afin de pouvoir ajuster leurs métriques et prix en temps réel (tels que le CPC ou CPM).

Ce type de prédiction fait aussi appel à des méthodes de régression, puisqu'on essaie là encore de prédire une valeur numérique.
Identifiez les événements rares
Un premier type de catégorisation automatique est l’identification d’événements appelés événements rares : les spams d’e-mail, les transactions frauduleuses, les textes injurieux, etc.
On peut traiter ce problème comme un problème de classification supervisée en annotant les données d'entraînement ("événement rare" et "événement normal" par exemple).
Mais en fait, on peut aussi effectuer une première modélisation (supervisée ou non supervisée) qui va permettre de modéliser le comportement habituel. Ensuite, on va simplement fixer un critère de distance qui permet de déterminer si une entrée est trop éloignée de la modélisation, c'est-à-dire du comportement attendu. La difficulté réside ensuite dans le choix du bon critère de distance spécifique au problème traité.
Sur le graphe ci-dessous, on peut dire que le point rouge est trop éloigné de la droite de modélisation et qu'il peut donc être considéré comme un outlier.

Affectez une catégorie à un produit
Lorsque le catalogue de produits d'un distributeur grandit, la problématique de catalogage se fait ressentir, car elle demande un travail minutieux et donc un temps homme conséquent. Avec les bonnes entrées d’entraînement, l’automatisation de cette tâche peut se faire avec des algorithmes de classification.
En effet, nous sommes typiquement ici dans une problématique de classification supervisée : les produits déjà classés peuvent faire office de données d’entraînement et les caractéristiques de produits, voire même directement les photos, peuvent servir de variable d'entrée pour notre algorithme de classification.

Segmentez les visiteurs d’un site
À partir d’une étude préalable ou bien d'une connaissance qualitative de la clientèle d’une entreprise, vous souhaitez catégoriser automatiquement vos clients et les assigner à différents segments (plus ou moins susceptibles de réaliser un achat par exemple).
En pratique, ce genre de segmentation automatique est très utile pour une qualification des visiteurs d’un site, afin de leur recommander les produits appropriés notamment.
On peut choisir :
d'effectuer une classification supervisée en annotant manuellement des segments qui nous intéressent sur une base client d'entraînement ;
d'essayer de prédire à l'aide d'une régression la susceptibilité de conversion d'un client et ensuite effectuer une segmentation sur ce critère (< 1 % vs > 1 % susceptibles de convertir par exemple) ;
d'effectuer une classification non supervisée afin de détecter de nouveaux groupes d'intérêts qui peuvent être targetés individuellement ;
etc.
Recommandez un produit à un client
La recommandation est une problématique qui revient très souvent pour les data scientists : suggérer d'autres produits à acheter sur Amazon, des films à regarder sur Netflix, des musiques à écouter sur Spotify, etc. C'est vraiment utile, à la fois pour l'utilisateur final et pour l'entreprise qui peut ainsi proposer le contenu le plus pertinent.
Une recommandation, c'est une proposition de contenu similaire aux produits qu'a déjà aimé l'utilisateur. C'est la notion de similarité qui est donc à traduire.
Mais du coup, c'est de la classification ? de la régression ? supervisée ? non supervisée ?
Bonnes questions ! En réalité, ce problème peut être formulé d'énormément de manières différentes. Une technique largement répandue est le "collaborative filtering", qui se base sur des similarités entre utilisateurs, ou bien des similarités entre produits. Dans ces deux cas, c'est un problème non supervisé : on procure toutes nos données à l'algorithme et on le laisse essayer de déterminer les relations entre les différentes entités.
Sur l'image ci-dessous, on regarde par exemple ce qu'ont voté les utilisateurs similaires, c'est-à-dire ceux qui ont déjà voté la même chose sur d'autres produits (surlignés en vert). On peut alors prédire ce qu'aurait voté notre utilisateur sur le produit cherché, et ne proposer que les produits sur lesquels il aurait mis un pouce vert.

Le clustering
Le clustering désigne les méthodes de regroupement automatique de données qui se ressemblent le plus en un ensemble de "nuages", appelés clusters. Un ensemble d'algorithmes non supervisés peut réaliser cette tâche. Ceux-ci mesurent donc de manière automatique la similarité entre les différentes données. Par exemple, les points sur le graphe ci-dessous peuvent être considérés comme similaires s'ils sont proches en termes de distance.

C'est bien beau, mais à quoi ça sert en pratique ?
En pratique, le clustering permet de détecter des grandes catégories au sein des données. Une utilisation courante en marketing, par exemple, est le partitionnement automatique de consommateurs en différents segments. Vous vous en doutez maintenant, c'est aussi souvent utilisé pour les moteurs de recommandation automatique (e.g., recommander des instances appartenant au même cluster que l'instance considérée).
En résumé
Vous avez vu quelques exemples de solutions de machine learning courantes à des problématiques d'entreprises :
affecter un score à un client ;
prédire la rentabilité d’une campagne marketing ;
identifier les événements rares ;
affecter une catégorie à un produit ;
segmenter les visiteurs d’un site ;
recommander un produit à un client.
Une fois que vous aurez acquis l'expérience nécessaire, vous arriverez de plus en plus facilement à effectuer la traduction d'une problématique réelle en problème de machine learning !