Transformarea datelor (statistică)

Transformările logaritmului și a rădăcinii pătrate sunt utilizate în mod obișnuit pentru datele pozitive, iar transformarea inversă multiplicativă (reciprocă) poate fi utilizată pentru datele care nu sunt egale cu zero. Transformarea de putere este o familie de transformări parametrizată de o valoare nenegativă λ care include logaritmul, rădăcina pătrată și inversul multiplicativ ca cazuri speciale. Pentru a aborda în mod sistematic transformarea datelor, este posibil să se utilizeze tehnici de estimare statistică pentru a estima parametrul λ în transformarea puterii, identificând astfel transformarea care este aproximativ cea mai adecvată într-un anumit context. Deoarece familia de transformări de putere include, de asemenea, transformarea de identitate, această abordare poate indica, de asemenea, dacă ar fi mai bine să se analizeze datele fără o transformare. În analiza de regresie, această abordare este cunoscută sub numele de tehnica Box-Cox.

Transformarea reciprocă, unele transformări de putere, cum ar fi transformarea Yeo-Johnson, și anumite alte transformări, cum ar fi aplicarea sinusului hiperbolic invers, pot fi aplicate în mod semnificativ la date care includ atât valori pozitive, cât și negative (transformarea de putere este inversabilă pe toate numerele reale dacă λ este un număr întreg impar). Cu toate acestea, atunci când se observă atât valori negative, cât și pozitive, este uneori obișnuit să se înceapă prin adăugarea unei constante la toate valorile, producând un set de date non-negative la care se poate aplica orice transformare de putere.

O situație obișnuită în care se aplică o transformare de date este atunci când o valoare de interes variază pe mai multe ordine de mărime. Multe fenomene fizice și sociale prezintă un astfel de comportament – veniturile, populațiile de specii, dimensiunile galaxiilor și volumele de precipitații, pentru a numi doar câteva. Transformările de putere, și în special logaritmul, pot fi adesea utilizate pentru a induce simetrie în astfel de date. Logaritmul este deseori favorizat deoarece este ușor de interpretat rezultatul său în termeni de „schimbări de pliuri.”

Logaritmul are, de asemenea, un efect util asupra rapoartelor. Dacă comparăm cantitățile pozitive X și Y folosind raportul X / Y, atunci dacă X < Y, raportul se află în intervalul (0,1), în timp ce dacă X > Y, raportul se află în semiluna (1,∞), unde raportul de 1 corespunde egalității. Într-o analiză în care X și Y sunt tratate simetric, log-raportul log(X / Y) este zero în cazul egalității și are proprietatea că, dacă X este de K ori mai mare decât Y, log-raportul este la aceeași distanță de zero ca în situația în care Y este de K ori mai mare decât X (log-raporturile sunt log(K) și -log(K) în aceste două situații).

Dacă valorile sunt restricționate în mod natural pentru a fi în intervalul de la 0 la 1, fără a include punctele finale, atunci poate fi adecvată o transformare logit: aceasta produce valori în intervalul (-∞,∞).

Transformarea la normalitateEdit

1. Nu este întotdeauna necesar sau de dorit să se transforme un set de date pentru a semăna cu o distribuție normală. Cu toate acestea, dacă se dorește simetrie sau normalitate, acestea pot fi adesea induse prin intermediul uneia dintre transformările de putere.

2. O funcție de putere lingvistică este distribuită în conformitate cu legea Zipf-Mandelbrot. Distribuția este extrem de spiky și leptokurtică, acesta este motivul pentru care cercetătorii au trebuit să întoarcă spatele statisticii pentru a rezolva, de exemplu, problemele de atribuire a paternității. Cu toate acestea, utilizarea statisticii gaussiene este perfect posibilă prin aplicarea unei transformări a datelor.

3. Pentru a evalua dacă normalitatea a fost atinsă după transformare, se poate utiliza oricare dintre testele standard de normalitate. O abordare grafică este, de obicei, mai informativă decât un test statistic formal și, prin urmare, se utilizează în mod obișnuit un grafic al cuantelor normale pentru a evalua adecvarea unui set de date la o populație normală. Alternativ, au fost propuse, de asemenea, reguli empirice bazate pe skewness și kurtosis ale eșantionului.

Transformarea într-o distribuție uniformă sau într-o distribuție arbitrarăEdit

Dacă observăm un set de n valori X1, …, Xn fără egalități (adică există n valori distincte), putem înlocui Xi cu valoarea transformată Yi = k, unde k este definit astfel încât Xi să fie a k-a cea mai mare dintre toate valorile X. Acest lucru se numește transformare de rang și creează date cu o potrivire perfectă la o distribuție uniformă. Această abordare are un analog pentru populație.

Utilizând transformarea integrală a probabilității, dacă X este orice variabilă aleatoare și F este funcția de distribuție cumulativă a lui X, atunci, atâta timp cât F este inversabilă, variabila aleatoare U = F(X) urmează o distribuție uniformă pe intervalul unitar.

Dintr-o distribuție uniformă, ne putem transforma în orice distribuție cu o funcție de distribuție cumulativă inversabilă. Dacă G este o funcție de repartiție cumulativă inversabilă, iar U este o variabilă aleatoare distribuită uniform, atunci variabila aleatoare G-1(U) are G ca funcție de repartiție cumulativă.

Punându-le pe cele două împreună, dacă X este o variabilă aleatoare oarecare, F este funcția de repartiție cumulativă inversabilă a lui X și G este o funcție de repartiție cumulativă inversabilă, atunci variabila aleatoare G-1(F(X)) are G ca funcție de repartiție cumulativă.

Transformări de stabilizare a varianțeiEdit

Articolul principal: Transformarea stabilizatoare de varianță

Multe tipuri de date statistice prezintă o „relație varianță pe medie”, ceea ce înseamnă că variabilitatea este diferită pentru valori de date cu valori așteptate diferite. Ca exemplu, în compararea diferitelor populații din lume, varianța venitului tinde să crească odată cu venitul mediu. Dacă luăm în considerare un număr de unități de suprafață mică (de exemplu, județele din Statele Unite) și obținem media și varianța veniturilor în cadrul fiecărui județ, este obișnuit ca județele cu venituri medii mai mari să aibă, de asemenea, varianțe mai mari.

O transformare de stabilizare a varianței urmărește să elimine o relație variație pe medie, astfel încât varianța să devină constantă în raport cu media. Exemple de transformări de stabilizare a varianței sunt transformarea Fisher pentru coeficientul de corelație al eșantionului, transformarea rădăcinii pătrate sau transformarea Anscombe pentru datele Poisson (date de numărare), transformarea Box-Cox pentru analiza de regresie și transformarea rădăcinii pătrate a arcsinei sau transformarea unghiulară pentru proporții (date binomiale). Deși este utilizată în mod obișnuit pentru analiza statistică a datelor proporționale, transformarea rădăcinii pătrate arcsine nu este recomandată deoarece regresia logistică sau o transformare logit sunt mai adecvate pentru proporțiile binomiale, respectiv non-binomiale, în special datorită scăderii erorii de tip II.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.