Trasformazione dei dati (statistica)

Le trasformazioni del logaritmo e della radice quadrata sono comunemente usate per dati positivi, e la trasformazione inversa moltiplicativa (reciproca) può essere usata per dati non nulli. La trasformazione di potenza è una famiglia di trasformazioni parametrizzate da un valore non negativo λ che include il logaritmo, la radice quadrata e l’inverso moltiplicativo come casi speciali. Per avvicinarsi alla trasformazione dei dati in modo sistematico, è possibile utilizzare tecniche di stima statistica per stimare il parametro λ nella trasformazione di potenza, identificando così la trasformazione che è approssimativamente la più appropriata in un dato contesto. Poiché la famiglia delle trasformazioni di potenza include anche la trasformazione di identità, questo approccio può anche indicare se sarebbe meglio analizzare i dati senza una trasformazione. Nell’analisi di regressione, questo approccio è noto come la tecnica Box-Cox.

La trasformazione reciproca, alcune trasformazioni di potenza come la trasformazione Yeo-Johnson, e alcune altre trasformazioni come l’applicazione del seno iperbolico inverso, possono essere significativamente applicate a dati che includono sia valori positivi che negativi (la trasformazione di potenza è invertibile su tutti i numeri reali se λ è un intero dispari). Tuttavia, quando si osservano sia valori negativi che positivi, a volte è comune iniziare aggiungendo una costante a tutti i valori, producendo un insieme di dati non negativi a cui può essere applicata qualsiasi trasformazione di potenza.

Una situazione comune in cui viene applicata una trasformazione dei dati è quando un valore di interesse varia su diversi ordini di grandezza. Molti fenomeni fisici e sociali mostrano questo comportamento – redditi, popolazioni di specie, dimensioni delle galassie e volumi di pioggia, per nominarne alcuni. Le trasformazioni di potenza, e in particolare il logaritmo, possono spesso essere usate per indurre la simmetria in tali dati. Il logaritmo è spesso favorito perché è facile interpretare il suo risultato in termini di “cambiamenti delle pieghe”

Il logaritmo ha anche un effetto utile sui rapporti. Se stiamo confrontando quantità positive X e Y usando il rapporto X / Y, allora se X < Y, il rapporto è nell’intervallo (0,1), mentre se X > Y, il rapporto è nella semiretta (1,∞), dove il rapporto di 1 corrisponde all’uguaglianza. In un’analisi in cui X e Y sono trattati simmetricamente, il log-ratio log(X / Y) è zero nel caso di uguaglianza, e ha la proprietà che se X è K volte maggiore di Y, il log-ratio è equidistante da zero come nella situazione in cui Y è K volte maggiore di X (i log-ratio sono log(K) e -log(K) in queste due situazioni).

Se i valori sono naturalmente limitati ad essere nell’intervallo da 0 a 1, esclusi i punti finali, allora una trasformazione logit può essere appropriata: questa produce valori nell’intervallo (-∞,∞).

Trasformazione alla normalitàModifica

1. Non è sempre necessario o desiderabile trasformare una serie di dati per assomigliare a una distribuzione normale. Tuttavia, se la simmetria o la normalità sono desiderate, possono spesso essere indotte attraverso una delle trasformazioni di potenza.

2. Una funzione di potenza linguistica è distribuita secondo la legge di Zipf-Mandelbrot. La distribuzione è estremamente spinosa e leptocurtica, questa è la ragione per cui i ricercatori hanno dovuto voltare le spalle alla statistica per risolvere, ad esempio, i problemi di attribuzione degli autori. Tuttavia, l’uso della statistica gaussiana è perfettamente possibile applicando la trasformazione dei dati.

3. Per valutare se la normalità è stata raggiunta dopo la trasformazione, si può usare uno qualsiasi dei test standard di normalità. Un approccio grafico è di solito più informativo di un test statistico formale e quindi un grafico quantile normale è comunemente usato per valutare l’adattamento di una serie di dati a una popolazione normale. In alternativa, sono state proposte anche regole empiriche basate sull’asimmetria e la curtosi del campione.

Trasformazione in una distribuzione uniforme o in una distribuzione arbitrariaModifica

Se osserviamo un insieme di n valori X1, …, Xn senza legami (cioè, ci sono n valori distinti), possiamo sostituire Xi con il valore trasformato Yi = k, dove k è definito in modo che Xi sia il kesimo più grande tra tutti i valori X. Questa è chiamata la trasformazione di rango e crea dati che si adattano perfettamente a una distribuzione uniforme. Questo approccio ha un analogo per la popolazione.

Utilizzando la trasformazione integrale delle probabilità, se X è una qualsiasi variabile casuale e F è la funzione di distribuzione cumulativa di X, allora finché F è invertibile, la variabile casuale U = F(X) segue una distribuzione uniforme sull’intervallo unitario.

Da una distribuzione uniforme, possiamo trasformare a qualsiasi distribuzione con una funzione di distribuzione cumulativa invertibile. Se G è una funzione di distribuzione cumulativa invertibile e U è una variabile casuale distribuita uniformemente, allora la variabile casuale G-1(U) ha G come funzione di distribuzione cumulativa.

Mettendo insieme le due cose, se X è una qualsiasi variabile casuale, F è la funzione di distribuzione cumulativa invertibile di X, e G è una funzione di distribuzione cumulativa invertibile, allora la variabile casuale G-1(F(X)) ha G come funzione di distribuzione cumulativa.

Trasformazioni stabilizzanti della varianzaModifica

Articolo principale: Trasformazione stabilizzante della varianza

Molti tipi di dati statistici mostrano una “relazione varianza-media”, il che significa che la variabilità è diversa per valori di dati con valori attesi diversi. Per esempio, confrontando diverse popolazioni nel mondo, la varianza del reddito tende ad aumentare con il reddito medio. Se consideriamo un certo numero di piccole unità territoriali (per esempio, le contee negli Stati Uniti) e otteniamo la media e la varianza dei redditi all’interno di ogni contea, è comune che le contee con un reddito medio più alto abbiano anche una varianza più alta.

Una trasformazione che stabilizza la varianza mira a rimuovere una relazione varianza-su-media, in modo che la varianza diventi costante rispetto alla media. Esempi di trasformazioni che stabilizzano la varianza sono la trasformazione di Fisher per il coefficiente di correlazione del campione, la trasformazione della radice quadrata o la trasformazione di Anscombe per i dati di Poisson (dati di conteggio), la trasformazione Box-Cox per l’analisi di regressione, e la trasformazione della radice quadrata di arcsine o la trasformazione angolare per le proporzioni (dati binomiali). Anche se comunemente usata per l’analisi statistica dei dati proporzionali, la trasformazione della radice quadrata di arcsina non è raccomandata perché la regressione logistica o la trasformazione logit sono più appropriate per le proporzioni binomiali o non binomiali, rispettivamente, soprattutto a causa della diminuzione dell’errore di tipo II.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.