Datatransformation (statistik)

Logaritm- och kvadratrottransformationerna används vanligen för positiva data, och den multiplikativa inversa (reciproka) transformationen kan användas för data som inte är noll. Potenstransformationen är en familj av transformationer som parametreras av ett icke-negativt värde λ som inkluderar logaritmen, kvadratroten och den multiplikativa inversen som specialfall. För att närma sig datatransformationen på ett systematiskt sätt är det möjligt att använda statistiska skattningstekniker för att skatta parametern λ i potenstransformationen och därigenom identifiera den transformation som ungefärligen är den lämpligaste i en given miljö. Eftersom potenstransformationsfamiljen också omfattar identitetstransformationen kan detta tillvägagångssätt också indikera om det vore bäst att analysera data utan transformation. I regressionsanalys är detta tillvägagångssätt känt som Box-Cox-tekniken.

Den reciproka transformationen, vissa potenstransformationer som Yeo-Johnson-transformationen och vissa andra transformationer som tillämpning av den omvända hyperboliska sinus, kan på ett meningsfullt sätt tillämpas på data som innehåller både positiva och negativa värden (potenstransformationen är inverterbar över alla reella tal om λ är ett udda heltal). När både negativa och positiva värden observeras är det dock ibland vanligt att börja med att lägga till en konstant till alla värden, vilket ger en uppsättning icke-negativa data på vilka vilken vilken potenstransformation som helst kan tillämpas.

En vanlig situation där en datatransformation tillämpas är när ett värde av intresse sträcker sig över flera storleksordningar. Många fysiska och sociala fenomen uppvisar ett sådant beteende – inkomster, artpopulationer, galaxstorlekar och regnmängder, för att nämna några. Krafttransformationer, och i synnerhet logaritmen, kan ofta användas för att åstadkomma symmetri i sådana data. Logaritmen gynnas ofta eftersom det är lätt att tolka dess resultat i termer av ”vikningsförändringar.”

Logaritmen har också en användbar effekt på förhållanden. Om vi jämför positiva storheter X och Y med hjälp av förhållandet X / Y, ligger förhållandet i intervallet (0,1) om X < Y, medan förhållandet i intervallet (0,1) om X > Y ligger i halvlinjen (1,∞), där förhållandet 1 motsvarar jämlikhet. I en analys där X och Y behandlas symmetriskt är logförhållandet log(X / Y) noll i fallet med jämlikhet, och det har den egenskapen att om X är K gånger större än Y är logförhållandet lika långt från noll som i situationen där Y är K gånger större än X (logförhållandena är log(K) och -log(K) i dessa två situationer).

Om värdena är naturligt begränsade till att ligga i intervallet 0 till 1, utan att inkludera slutpunkterna, kan en logit-transformation vara lämplig: detta ger värden i intervallet (-∞,∞).

Transformering till normalitetRedigera

1. Det är inte alltid nödvändigt eller önskvärt att transformera en datamängd så att den liknar en normalfördelning. Om symmetri eller normalitet önskas kan de dock ofta framkallas genom en av potenstransformationerna.

2. En språklig potensfunktion är fördelad enligt Zipf-Mandelbrot-lagen. Fördelningen är extremt spikig och leptokurtisk, detta är anledningen till att forskarna var tvungna att vända ryggen åt statistiken för att lösa t.ex. problem med tillskrivning av författarskap. Icke desto mindre är det fullt möjligt att använda gaussisk statistik genom att tillämpa datatransformation.

3. För att bedöma om normalitet har uppnåtts efter transformationen kan något av de vanliga normalitetstesterna användas. Ett grafiskt tillvägagångssätt är vanligen mer informativt än ett formellt statistiskt test och därför används vanligen en normal kvantildiagram för att bedöma om en datamängd passar in i en normal population. Alternativt har tumregler baserade på provets skewness och kurtosis också föreslagits.

Omvandling till en enhetlig fördelning eller en godtycklig fördelningRedigera

Om vi observerar en uppsättning av n värden X1, …, Xn utan några likheter (det vill säga det finns n distinkta värden) kan vi ersätta Xi med det transformerade värdet Yi = k, där k är definierat på ett sådant sätt att Xi är det k:e största av alla X-värden. Detta kallas rangtransformation och skapar data som passar perfekt till en enhetlig fördelning. Detta tillvägagångssätt har en befolkningsanalog.

Med hjälp av sannolikhetsintegraltransformationen, om X är en slumpmässig variabel och F är den kumulativa fördelningsfunktionen för X, följer den slumpmässiga variabeln U = F(X) en enhetlig fördelning på enhetsintervallet så länge F är inverterbar.

Från en enhetlig fördelning kan vi transformera till en vilken som helst fördelning med en inverterbar kumulativ fördelningsfunktion. Om G är en inverterbar kumulativ fördelningsfunktion och U är en jämnt fördelad slumpvariabel har slumpvariabeln G-1(U) G som kumulativ fördelningsfunktion.

Om man slår ihop de två, om X är en valfri slumpvariabel, F är den inverterbara kumulativa fördelningsfunktionen för X, och G är en inverterbar kumulativ fördelningsfunktion så har slumpvariabeln G-1(F(X)) G som sin kumulativa fördelningsfunktion.

Variansstabiliserande transformationerRedigera

Huvudartikel: Variansstabiliserande transformation

Många typer av statistiska data uppvisar ett ”varians-på-medelförhållande”, vilket innebär att variabiliteten är olika för datavärden med olika förväntade värden. Som exempel kan nämnas att vid en jämförelse mellan olika befolkningar i världen tenderar variansen i inkomst att öka med medelinkomsten. Om vi betraktar ett antal små områdesenheter (t.ex. län i USA) och får fram medelvärdet och variansen för inkomsterna inom varje län, är det vanligt att länen med högre medelinkomst också har högre varians.

En variansstabiliserande omvandling syftar till att avlägsna ett varians-på-medelvärdet-förhållande, så att variansen blir konstant i förhållande till medelvärdet. Exempel på variansstabiliserande transformationer är Fisher-transformationen för stickprovskorrelationskoefficienten, kvadratrottransformationen eller Anscombe-transformationen för Poisson-data (räkneuppgifter), Box-Cox-transformationen för regressionsanalys och arcsine-kvadratrottransformationen eller vinkeltransformationen för proportioner (binomialdata). Även om den vanligen används för statistisk analys av proportionella data, rekommenderas inte arcsine kvadratrotstransformationen eftersom logistisk regression eller en logittransformation är mer lämplig för binomiala respektive icke-binomiala proportioner, särskilt på grund av minskat typ II-fel.

Arquidia Mantina

Arquidia Mantina

Datatransformation (statistik)

Transformering till normalitetRedigera

Omvandling till en enhetlig fördelning eller en godtycklig fördelningRedigera

Variansstabiliserande transformationerRedigera

Lämna ett svar Avbryt svar