Data munging
La première partie insiste particulièrement sur le rôle crucial de la préparation des données : détection d'erreurs ou de valeurs atypiques, analyse des distributions et transformation des variables, imputations de données manquantes...
Les données fournies à la suite de l'expérimentation (Anguita et al. 2013) des différentes activités enregistrées par un smartphone sont "propres" ou alors elles ont été déjà nettoyées des scories, erreur de manipulations, pannes et autres sources de défaillance.
Visualisez des signaux bruts
La première opération à réaliser consiste à visualiser les données. La représentation simultanée de tous les signaux vue dans la première partie est bien trop confuse pour appréhender leur structure et les questions qu'elle soulève.
Aussi, la représentation ci-dessous ne concerne qu'un seul type de signal : accélération en x, pour chacune des activités (de gauche à droite et de haut en bas : marcher, monter ou descendre un escalier, être couché, assis ou debout).
Intuitivement, il est assez clair que certaines activités (laying), produisent des signaux très spécifiques, donc très différents de ceux des autres activités. En revanche, les différents types de marches produisent des signaux similaires avec une forte composante périodique.
La principale question concerne la façon de mesurer une distance entre deux signaux temporels, c'est-à-dire deux courbes ou fonctions. En effet, la distance usuelle entre deux fonctions, déduite de la norme L2 des fonctions de carré intégrable, est l'intégrale des carrés des écarts entre 2 courbes. Comme les courbes sont discrétisées, il s'agit tout simplement de la somme des carrés des écarts ou plutôt de la racine carrée de cette quantité pour en faire une distance.
Le principal problème observé sur ces courbes concerne leur absence de synchronisation ou, c'est équivalent, leur déphasage ou décalage temporel. Au sens de la distance L2, deux signaux correspondant à la même activité peuvent être très proches ou très éloignés par le simple fait du déphasage.
Notons par ailleurs des enregistrements atypiques, par exemple dans l'activité "couché" ; certains signaux laissent penser que le porteur était en train de se coucher, même chose pour l'activité "assis". Ces activités spécifiques seront évidemment difficiles à identifier correctement.
Transformez les signaux
Pour dépasser les questions d'absence de synchronisation des signaux, des compétences en traitement du signal sont mises à profit pour calculer toute une batterie de nouvelles variables ou caractéristiques (features) sur ces signaux.
Les détails de cette étape sont décrits par Anguita et al. (2013). Voici une liste des principales fonctions calculées sur chaque signal ou paire de signaux de chaque activité :
valeur moyenne ;
écart-type ;
valeur absolue médiane ;
plus grande valeur ;
plus petite valeur ;
zone d'amplitude du signal ;
somme des carrés moyens ;
interquartile ;
entropie ;
coefficient d'autorégression ;
coefficient de corrélation ;
composante de plus grande fréquence ;
moyenne pondérée des fréquences ;
coefficient d'asymétrie des fréquences ;
kurtosis des fréquences ;
énergie dans une bande de fréquences ;
angle entre deux vecteurs...
Finalement, calculées sur les 9 types de signaux et leurs combinaisons deux à deux (corrélations), ce sont p=561 variables qui sont considérées par la suite.
Aborder des données d'une telle complexité multidimensionnelle nécessite des moyens appropriés. C'est le domaine d'application privilégié de l'analyse en composantes principales (ACP).