Mis à jour le 14/05/2018
  • 10 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

Ce cours est en vidéo.

Vous pouvez obtenir un certificat de réussite à l'issue de ce cours.

J'ai tout compris !

Formulez des problématiques business en problèmes de machine learning

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Pour terminer cette première partie, nous allons essayer de faire le pont entre les différentes catégories de problèmes de machine learning que vous venez de découvrir, et les différentes problématiques business auxquelles sont souvent confrontées les entreprises.

Attention, faire ce lien doit devenir une seconde nature pour vous ! 💪

Affecter un score à un client

Le scoring est une technique répandue dans le domaine du marketing. Le score obtenu traduit généralement la probabilité qu’un individu réponde à une sollicitation marketing ou appartienne à la cible recherchée (par exemple la probabilité qu'un prospect devienne un client payant, ou qu'un client fasse défaut, c'est à dire ne rembourse pas un crédit dans le cas d'une banque ou d'une assurance).

Autrefois à la charge de statisticiens, c’est maintenant souvent au data scientist qu’il incombe la charge de noter les clients. Ce type de scoring s'effectue en général grâce à un certain nombre de caractéristiques qui définissent le client (âge, genre, ville, etc.).

Pourquoi ce n’est pas resté à la charge des statisticiens ? Qu'est-ce que peut apporter la data science de plus?

Une phrase résume très bien la distinction entre statisticien et data scientist :

Data Scientist (n.): Person who is better at statistics than any software engineer and better at software engineering than any statistician.

Disons que le débat est toujours ouvert, mais que pour faire simple, ce qui peut distinguer un data scientist d'un statisticien, c'est sa capacité à mieux écrire du code et déployer des algorithmes en production, et à l'inverse son attachement moins strict à la rigueur statistique sous-jacentes aux algorithmes. 

Le scoring est le plus souvent associé aux méthodes de régression, supervisé ou non-supervisé selon les données d'entraînement.

Prédire la rentabilité d’une campagne marketing

Tout est dans le titre. 😉  Les entreprises ont souvent besoin d’évaluer le ROI (retour sur investissement) d’une campagne (ou simplement d'en comparer plusieurs) avant de la lancer, afin d’estimer si le jeu en vaut la chandelle. C’est aussi une méthode utilisée par les régies publicitaires afin de pouvoir ajuster leurs métriques et prix en temps réel (tels que le CPC ou CPM). 

La prédiction sur un challenge Kaggle du CTR (% de visiteurs qui cliquent un lien) selon l'heure de la journée
Prédiction du CTR (% de visiteurs qui cliquent un lien) selon l'heure de la journée. Source : challenge Kaggle https://www.kaggle.com/c/avazu-ctr-prediction/forums/t/10781/hour-of-day-day-of-week-ctr/56962

Ce type de prédiction fait aussi appel à des méthodes de régression, puisqu'on essaie là encore de prédire une valeur numérique.

Identifier les événements rares

Un premier type de catégorisation automatique est celle de l’identification d’événements appelés événements rares : les spams d’email, les transactions frauduleuses, les textes injurieux, les photos NSFW, etc. 

On peut traiter ce problème comme un problème de classification supervisé en annotant les données d'entraînement ("événement rare" et "événement normal" par exemple).

Mais en fait, on peut aussi effectuer une première modélisation (supervisée ou non-supervisée) qui va permettre de modéliser le comportement habituel. Ensuite, simplement fixer un critère de distance qui permet de déterminer si une entrée est trop éloignée de la modélisation, c'est à dire du comportement attendu. La difficulté réside ensuite à choisir le bon critère de distance spécifique au problème traité.

Sur le graphe ci-dessous, on peut dire que le point rouge est trop éloigné de la droite de modélisation et qu'il peut donc être considéré comme un outlier.

Comment détecter des événements rares comme le point rouge?
Comment détecter des événements aberrants (outliers) comme le point rouge ?

Affecter une catégorie catalogue à un produit

Lorsque le catalogue de produits d’un distributeur grandi, la problématique de catalogage se fait ressentir, car elle demande un travail minutieux et donc un temps homme conséquent. Avec les bonnes entrées d’entraînement, l’automatisation de cette tâche peut se faire avec des algorithmes de classification. En effet, nous sommes typiquement ici dans une problématique de classification supervisée : les produits déjà classés peuvent faire office de données d’entraînement et les caractéristiques de produits, voire même directement les photos, peuvent servir de variable d'entrée pour notre algorithme de classification.

Des applications comme getpocket utilisent la classification automatique de nouveaux liens entrants afin de pouvoir proposer a l'utilisateurs des suggestions de tags
Des applications comme Pocket utilisent la classification automatique de nouveaux liens entrants afin de pouvoir proposer a l'utilisateurs des suggestions de tags.  Source : getpocket.com

Segmenter les visiteurs d’un site

A partir d’une étude préalable ou bien d'une connaissance qualitative de la clientèle d’une entreprise, vous pouvez avoir envie de catégoriser automatiquement vos clients et les assigner à différents segments (plus ou moins susceptibles de réaliser un achat par exemple).

En pratique, ce genre de segmentation automatique est très utile pour une qualification des visiteurs d’un site, afin de leur recommander les produits appropriés notamment.

On peut choisir de :

  • effectuer une classification supervisée en annotant manuellement des segments qui nous intéressent sur une base client d'entraînement

  • essayer de prédire à l'aide d'une régression la susceptibilité de conversion d'un client et ensuite effectuer une segmentation sur ce critère (<1% vs >1% susceptible de convertir par exemple)

  • effectuer une classification non-supervisée afin de détecter de nouveaux groupes d'intérêts qui peuvent être targetés individuellement

  • etc

Recommander un produit à un client

La recommandation est une problématique qui revient très souvent pour les data scientists : suggérer d'autres produits à acheter sur Amazon, des films à regarder sur Netflix, des musiques à écouter sur Spotify, etc. C'est vraiment utile, à la fois pour l'utilisateur final et pour l'entreprise qui peut ainsi proposer le contenu le plus pertinent. 

Une recommandation, c'est une proposition de contenu similaire aux produits qu'à déjà aimé l'utilisateur. C'est la notion de similarité qui est donc à traduire. 

Mais du coup c'est de la classification ? de la régression ? supervisé ? non-supervisé ? 

Bonne question ! En réalité ce problème peut être formulé d'énormément de manières différentes. Une technique largement répandue est le "collaborative filtering", qui se base sur des similarités entre utilisateurs, ou bien des similarités entre produits. Dans ces deux cas, c'est un problème non-supervisé : on procure toutes nos données à l'algorithme et on le laisse essayer de déterminer les relations entre les différentes entités. 

Un système de recommandation classique : on voit que l'ensemble des visiteurs ont votés en faveur ou en défaveur de produits sur le site.
L'ensemble des visiteurs ont voté en faveur ou en défaveur de produits sur le site. À nous maintenant de prédire à quel point l'utilisateur de la dernière ligne va apprécier le produit qu'il n'a pas encore noté. (Crédits : Wikipédia)

Sur l'image ci-dessous, on regarde par exemple ce qu'ont voté les utilisateurs similaires, c'est à dire ceux qui ont déjà voté la même chose sur d'autres produits (surlignés en vert). On peut alors prédire ce qu'aurait voté notre utilisateur sur le produit cherché, et ne proposer que les produits sur lesquels il aurait mis un pouce vert.

On prend les utilisateurs similaires, c'est à dire qu'ils ont voté de la même manière sur d'autres produits. Dans ce cas, on peut prédire ce qu'aurait voté notre utilisateur sur le produit cherché et donc le recommander ou pas.
Les utilisateurs similaires (en vert) n'ont pas aimé le produit que notre utilisateur n'a pas encore noté. L'algorithme aura donc tendance à prédire une mauvaise note et à ne pas recommander le produit ici.

Le clustering

Puisqu'on parle de similarité, il faut que je vous parle également du clustering. Le clustering désigne les méthodes de regroupement automatique de données qui se ressemblent le plus en un ensemble de "nuages", appelés clusters. Un ensemble d'algorithmes non-supervisés peuvent réaliser cette tâche. Ils mesurent donc de manière automatique la similarité entre les différentes données. Par exemple, les points sur le graphe ci-dessous peuvent être considérés comme similaires s'ils sont proches en terme de distance.

L'objectif du clustering est de retrouver les différents clusters de données similaires
L'objectif du clustering est de retrouver les différents clusters de données, c'est à dire regrouper les données similaires entre elles

C'est bien beau mais à quoi ça sert en pratique ?

En pratique, le clustering permet de détecter des grandes catégories au sein des données. Une utilisation courante en marketing par exemple est le partitionnement automatique de consommateurs en différents segments. Vous vous en doutez maintenant, c'est aussi souvent utilisé pour les moteurs de recommandation automatique (e.g., recommander des instances appartenant au même cluster que l'instance considérée).

Conclusion

Tout au long de cette première partie, j'espère vous avoir aidé à vous faire une bonne idée de ce qu'il est possible de faire avec le machine learning. Je n'ai évoqué dans ce dernier chapitre que quelques exemples concrets de ce que l'on peut réaliser à l'aide du machine learning dans un environnement business... Mais une fois que vous aurez acquis l'expérience nécessaire, vous arriverez de plus en plus facilement à effectuer la traduction d'une problématique réelle en problème de machine learning !

Exemple de certificat de réussite
Exemple de certificat de réussite