Datentransformation (Statistik)

Die Logarithmus- und Quadratwurzeltransformation werden üblicherweise für positive Daten verwendet, und die multiplikative inverse (reziproke) Transformation kann für Daten verwendet werden, die nicht Null sind. Die Potenztransformation ist eine Familie von Transformationen, die durch einen nichtnegativen Wert λ parametrisiert ist und den Logarithmus, die Quadratwurzel und die multiplikative Umkehrung als Spezialfälle umfasst. Um die Datentransformation systematisch anzugehen, ist es möglich, statistische Schätzverfahren zu verwenden, um den Parameter λ in der Potenztransformation zu schätzen und so die Transformation zu ermitteln, die in einem bestimmten Umfeld am besten geeignet ist. Da die Familie der Leistungstransformationen auch die Identitätstransformation umfasst, kann dieser Ansatz auch angeben, ob es am besten wäre, die Daten ohne eine Transformation zu analysieren. In der Regressionsanalyse ist dieser Ansatz als Box-Cox-Technik bekannt.

Die reziproke Transformation, einige Potenztransformationen wie die Yeo-Johnson-Transformation und bestimmte andere Transformationen wie die Anwendung des inversen hyperbolischen Sinus können sinnvoll auf Daten angewendet werden, die sowohl positive als auch negative Werte enthalten (die Potenztransformation ist über alle reellen Zahlen invertierbar, wenn λ eine ungerade ganze Zahl ist). Wenn jedoch sowohl negative als auch positive Werte beobachtet werden, ist es manchmal üblich, zunächst eine Konstante zu allen Werten zu addieren, um einen Satz nicht-negativer Daten zu erhalten, auf den eine beliebige Potenztransformation angewandt werden kann.

Eine häufige Situation, in der eine Datentransformation angewandt wird, ist, wenn ein interessanter Wert über mehrere Größenordnungen reicht. Viele physikalische und soziale Phänomene weisen ein solches Verhalten auf – Einkommen, Artenpopulationen, Galaxiengrößen und Niederschlagsmengen, um nur einige zu nennen. Potenztransformationen, insbesondere der Logarithmus, können häufig verwendet werden, um Symmetrie in solche Daten zu bringen. Der Logarithmus wird oft bevorzugt, weil sich sein Ergebnis leicht in Form von „fachen Veränderungen“ interpretieren lässt.

Der Logarithmus hat auch eine nützliche Wirkung auf Verhältnisse. Vergleicht man positive Größen X und Y mit Hilfe des Verhältnisses X / Y, so liegt das Verhältnis bei X < Y im Intervall (0,1), während bei X > Y das Verhältnis auf der Mittellinie (1,∞) liegt, wobei das Verhältnis von 1 der Gleichheit entspricht. Bei einer Analyse, bei der X und Y symmetrisch behandelt werden, ist das Log-Verhältnis log(X / Y) im Falle der Gleichheit gleich Null und hat die Eigenschaft, dass, wenn X K-mal größer als Y ist, das Log-Verhältnis genauso weit von Null entfernt ist wie in der Situation, in der Y K-mal größer als X ist (die Log-Verhältnisse sind log(K) und -log(K) in diesen beiden Situationen).

Wenn die Werte von Natur aus auf den Bereich von 0 bis 1 beschränkt sind, ohne die Endpunkte einzuschließen, kann eine Logit-Transformation angemessen sein: Dies ergibt Werte im Bereich von (-∞,∞).

Transformation zur NormalitätEdit

1. Es ist nicht immer notwendig oder wünschenswert, einen Datensatz so zu transformieren, dass er einer Normalverteilung ähnelt. Wenn jedoch Symmetrie oder Normalität erwünscht sind, können sie oft durch eine der Potenztransformationen herbeigeführt werden.

2. Eine sprachliche Potenzfunktion ist nach dem Zipf-Mandelbrot-Gesetz verteilt. Die Verteilung ist extrem spitz und leptokurtisch, weshalb die Forscher der Statistik den Rücken kehren mussten, um z.B. Probleme der Autorenzuschreibung zu lösen. Nichtsdestotrotz ist die Anwendung der Gauß’schen Statistik durch eine Datentransformation durchaus möglich.

3 Um zu beurteilen, ob nach der Transformation Normalität erreicht wurde, kann jeder der Standard-Normalitätstests verwendet werden. Ein grafischer Ansatz ist in der Regel aussagekräftiger als ein formaler statistischer Test, und daher wird üblicherweise ein normaler Quantilplot verwendet, um die Anpassung eines Datensatzes an eine normale Population zu beurteilen. Alternativ wurden auch Faustregeln auf der Grundlage der Stichprobenschiefe und -wölbung vorgeschlagen.

Transformation in eine Gleichverteilung oder eine beliebige VerteilungBearbeiten

Wenn wir eine Menge von n Werten X1, …, Xn ohne Gleichheit beobachten (d. h. es gibt n verschiedene Werte), können wir Xi durch den transformierten Wert Yi = k ersetzen, wobei k so definiert ist, dass Xi der k-te größte aller X-Werte ist. Dies wird als Rangtransformation bezeichnet und erzeugt Daten, die sich perfekt an eine Gleichverteilung anpassen.

Wenn X eine beliebige Zufallsvariable und F die kumulative Verteilungsfunktion von X ist, dann folgt die Zufallsvariable U = F(X) einer Gleichverteilung auf dem Einheitsintervall, solange F invertierbar ist.

Aus einer Gleichverteilung kann man in eine beliebige Verteilung mit einer invertierbaren kumulativen Verteilungsfunktion transformieren. Wenn G eine invertierbare kumulative Verteilungsfunktion ist und U eine gleichverteilte Zufallsvariable ist, dann hat die Zufallsvariable G-1(U) G als kumulative Verteilungsfunktion.

Wenn X eine beliebige Zufallsvariable ist, F die invertierbare kumulative Verteilungsfunktion von X ist und G eine invertierbare kumulative Verteilungsfunktion ist, dann hat die Zufallsvariable G-1(F(X)) G als ihre kumulative Verteilungsfunktion.

Varianzstabilisierende TransformationenBearbeiten

Hauptartikel: Varianzstabilisierende Transformation

Viele Arten von statistischen Daten weisen eine „Varianz-auf-Mittelwert-Beziehung“ auf, was bedeutet, dass die Variabilität für Datenwerte mit unterschiedlichen Erwartungswerten unterschiedlich ist. Ein Beispiel: Beim Vergleich verschiedener Bevölkerungsgruppen in der Welt nimmt die Varianz des Einkommens tendenziell mit dem mittleren Einkommen zu. Betrachtet man eine Reihe von kleinen Gebietseinheiten (z. B. Landkreise in den Vereinigten Staaten) und ermittelt den Mittelwert und die Varianz der Einkommen innerhalb jedes Landkreises, so ist es üblich, dass die Landkreise mit einem höheren mittleren Einkommen auch eine höhere Varianz aufweisen.

Eine varianzstabilisierende Transformation zielt darauf ab, eine Varianz-Mittelwert-Beziehung zu beseitigen, so dass die Varianz relativ zum Mittelwert konstant wird. Beispiele für varianzstabilisierende Transformationen sind die Fisher-Transformation für den Stichprobenkorrelationskoeffizienten, die Quadratwurzeltransformation oder Anscombe-Transformation für Poisson-Daten (Zähldaten), die Box-Cox-Transformation für die Regressionsanalyse und die Arkussinus-Quadratwurzeltransformation oder Winkeltransformation für Proportionen (Binomialdaten). Obwohl die Arkuswurzeltransformation häufig für die statistische Analyse proportionaler Daten verwendet wird, wird sie nicht empfohlen, da eine logistische Regression oder eine Logit-Transformation für binomiale bzw. nicht-binomiale Proportionen besser geeignet sind, insbesondere aufgrund des geringeren Typ-II-Fehlers.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.