Transformation de données (statistiques)

Les transformations logarithme et racine carrée sont couramment utilisées pour les données positives, et la transformation inverse multiplicative (réciproque) peut être utilisée pour les données non nulles. La transformation en puissance est une famille de transformations paramétrées par une valeur non négative λ qui inclut le logarithme, la racine carrée et l’inverse multiplicatif comme cas particuliers. Pour aborder la transformation des données de manière systématique, il est possible d’utiliser des techniques d’estimation statistique pour estimer le paramètre λ de la transformation de puissance, identifiant ainsi la transformation qui est approximativement la plus appropriée dans un cadre donné. Puisque la famille des transformations de puissance comprend également la transformation d’identité, cette approche peut également indiquer s’il serait préférable d’analyser les données sans transformation. En analyse de régression, cette approche est connue sous le nom de technique de Box-Cox.

La transformation réciproque, certaines transformations de puissance telles que la transformation de Yeo-Johnson, et certaines autres transformations telles que l’application du sinus hyperbolique inverse, peuvent être appliquées de manière significative à des données qui comprennent à la fois des valeurs positives et négatives (la transformation de puissance est inversible sur tous les nombres réels si λ est un entier impair). Cependant, lorsque des valeurs négatives et positives sont observées, il est parfois courant de commencer par ajouter une constante à toutes les valeurs, produisant un ensemble de données non négatives auxquelles toute transformation de puissance peut être appliquée.

Une situation courante où une transformation de données est appliquée est lorsqu’une valeur d’intérêt s’étend sur plusieurs ordres de grandeur. De nombreux phénomènes physiques et sociaux présentent un tel comportement – revenus, populations d’espèces, tailles de galaxies et volumes de précipitations, pour n’en citer que quelques-uns. Les transformées de puissance, et en particulier le logarithme, peuvent souvent être utilisées pour induire une symétrie dans ces données. Le logarithme est souvent privilégié parce qu’il est facile d’interpréter son résultat en termes de « changements de plis ».

Le logarithme a également un effet utile sur les ratios. Si nous comparons des quantités positives X et Y en utilisant le rapport X / Y, alors si X < Y, le rapport est dans l’intervalle (0,1), alors que si X > Y, le rapport est dans la demi-ligne (1,∞), où le rapport de 1 correspond à l’égalité. Dans une analyse où X et Y sont traités symétriquement, le log-rapport log(X / Y) est nul dans le cas de l’égalité, et il a la propriété que si X est K fois plus grand que Y, le log-rapport est aussi équidistant de zéro que dans la situation où Y est K fois plus grand que X (les log-ratios sont log(K) et -log(K) dans ces deux situations).

Si les valeurs sont naturellement restreintes pour être dans l’intervalle de 0 à 1, sans inclure les extrémités, alors une transformation logit peut être appropriée : cela donne des valeurs dans l’intervalle (-∞,∞).

Transformation à la normalitéEdit

1. Il n’est pas toujours nécessaire ou souhaitable de transformer un ensemble de données pour qu’il ressemble à une distribution normale. Cependant, si la symétrie ou la normalité sont souhaitées, elles peuvent souvent être induites par l’une des transformations de puissance.

2. Une fonction de puissance linguistique est distribuée selon la loi de Zipf-Mandelbrot. Cette distribution est extrêmement piquée et leptokurtique, c’est la raison pour laquelle les chercheurs ont dû tourner le dos aux statistiques pour résoudre, par exemple, les problèmes d’attribution d’auteur. Néanmoins, l’utilisation des statistiques gaussiennes est parfaitement possible en appliquant une transformation des données.

3. Pour évaluer si la normalité a été atteinte après transformation, n’importe lequel des tests de normalité standard peut être utilisé. Une approche graphique est généralement plus informative qu’un test statistique formel et donc un graphique de quantile normal est couramment utilisé pour évaluer l’ajustement d’un ensemble de données à une population normale. Alternativement, des règles empiriques basées sur l’asymétrie et l’aplatissement de l’échantillon ont également été proposées.

Transformation vers une distribution uniforme ou une distribution arbitraireEdit

Si nous observons un ensemble de n valeurs X1, …, Xn sans égalité (c’est-à-dire qu’il y a n valeurs distinctes), nous pouvons remplacer Xi par la valeur transformée Yi = k, où k est défini de telle sorte que Xi est la kième plus grande parmi toutes les valeurs X. C’est ce qu’on appelle la transformation de rang, qui crée des données parfaitement adaptées à une distribution uniforme. Cette approche a un analogue en population.

En utilisant la transformation intégrale de probabilité, si X est une variable aléatoire quelconque, et F est la fonction de distribution cumulative de X, alors tant que F est inversible, la variable aléatoire U = F(X) suit une distribution uniforme sur l’intervalle unitaire.

À partir d’une distribution uniforme, nous pouvons transformer en toute distribution avec une fonction de distribution cumulative inversible. Si G est une fonction de distribution cumulative inversible, et U est une variable aléatoire uniformément distribuée, alors la variable aléatoire G-1(U) a G comme fonction de distribution cumulative.

En mettant les deux ensemble, si X est une variable aléatoire quelconque, F est la fonction de distribution cumulative inversible de X, et G est une fonction de distribution cumulative inversible alors la variable aléatoire G-1(F(X)) a G comme fonction de distribution cumulative.

Transformations stabilisant la varianceModifié

Article principal : Transformation stabilisant la variance

Plusieurs types de données statistiques présentent une « relation variance sur moyenne », ce qui signifie que la variabilité est différente pour des valeurs de données ayant des valeurs attendues différentes. A titre d’exemple, en comparant différentes populations dans le monde, la variance du revenu a tendance à augmenter avec le revenu moyen. Si l’on considère un certain nombre de petites unités de surface (par exemple, les comtés des États-Unis) et que l’on obtient la moyenne et la variance des revenus au sein de chaque comté, il est courant que les comtés dont le revenu moyen est plus élevé aient également des variances plus élevées.

Une transformation stabilisant la variance vise à supprimer une relation variance sur moyenne, de sorte que la variance devienne constante par rapport à la moyenne. Des exemples de transformations stabilisant la variance sont la transformation de Fisher pour le coefficient de corrélation de l’échantillon, la transformation de la racine carrée ou la transformation d’Anscombe pour les données de Poisson (données de comptage), la transformation de Box-Cox pour l’analyse de régression, et la transformation de la racine carrée de l’arcsine ou la transformation angulaire pour les proportions (données binomiales). Bien qu’elle soit couramment utilisée pour l’analyse statistique des données proportionnelles, la transformation de racine carrée arcsine n’est pas recommandée car la régression logistique ou la transformation logit sont plus appropriées pour les proportions binomiales ou non binomiales, respectivement, notamment en raison de la diminution de l’erreur de type II.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.