データ変換(統計)

正のデータには対数変換や平方根変換がよく使われ、0でないデータには乗法逆変換(逆数)が使える。 べき乗変換は非負の値λをパラメータとする変換の一群で、特殊な場合として対数、平方根、乗法的逆変換が含まれる。 データ変換に体系的にアプローチするために、統計的な推定技術を使ってべき乗変換のパラメータλを推定し、それによって与えられた設定においておおよそ最も適切な変換を特定することが可能である。 べき乗変換には恒等変換も含まれるので、この方法は変換なしでデータを分析することが最善であるかどうかを示すこともできる。 4292>

逆変換、Yeo-Johnson 変換などのいくつかのべき乗変換、および逆ハイパーボリックサインを適用するなどの他の特定の変換は、正と負の両方の値を含むデータに有意義に適用できます(λが奇数の整数であれば、すべての実数上でべき乗変換は反転可能です)。 しかし、負の値と正の値の両方が観測された場合、すべての値に定数を追加して、任意のべき乗変換を適用できる非負のデータ セットを生成することから始めるのが一般的な場合があります。 多くの物理的および社会的現象は、所得、種の人口、銀河のサイズ、および降雨量など、そのような動作を示します。 このようなデータに対称性を持たせるために、累乗変換、特に対数変換がよく使われる。 対数は、その結果を「倍数変化」の観点から解釈するのが簡単なので、しばしば好まれています。 正の量XとYを比X / Yを用いて比較する場合、X < Yなら比は区間(0,1)にあり、X > Yなら比は半線(1,∞)にあり、比1が等しいことに相当する。 XとYが対称的に扱われる分析では、対数比log(X / Y)は等しい場合に0となり、XがYのK倍であれば、YがXのK倍である状況と同様に対数比が0から等距離となる性質を持つ(この二つの状況での対数比はlog(K)と-log(K)である)。

値が端点を含まない0から1の範囲に自然に制限されている場合、logit変換が適切である場合があります:これは範囲(-∞,∞)の値をもたらします。 データセットを正規分布に似せて変換することは、必ずしも必要でも望ましいことでもありません。 しかし、対称性または正規性が望まれる場合、それらはしばしばべき乗変換の1つを通して誘導することができます。

2. 言語力関数はZipf-Mandelbrotの法則に従って分布している。 この分布は非常にスパイクでレプトカーティクであり、これが、例えば著者の帰属問題を解決するために研究者が統計学に背を向けなければならなかった理由である。 しかし、データ変換を行うことでガウス統計の使用は完全に可能です。

3 変換後に正規性が達成されたかどうかを評価するために、標準的な正規性の検定のいずれかを使用することができます。 グラフによるアプローチは通常、正式な統計検定よりも有益であり、それゆえ、正規母集団に対するデータセットの適合性を評価するために正規分位プロットが一般的に使用されます。

一様分布または任意分布への変換 編集

同値のない(すなわち、n個の異なる値がある)n個の値X1、…、Xnのセットを観測すると、Xiを変換後の値Yi = kに置き換えることができます。 これはランク変換と呼ばれ、一様分布に完全に適合するデータを作成します。 4292>

確率積分変換を用いると、Xを任意の確率変数、FをXの累積分布関数とすると、Fが反転可能である限り、確率変数U=F(X)は単位区間上の一様分布に従う。 Gを可逆累積分布関数とし、Uを一様分布の確率変数とすれば、確率変数G-1(U)はGを累積分布関数とする。

この2つを合わせて、Xを任意の確率変数、FをXの可逆累積分布関数、Gを可逆累積分布関数とすると、確率変数G-1(F(X))はその累積分布関数としてGを持つ。 分散安定化変換

多くの種類の統計データは「分散-平均の関係」を示し、異なる期待値を持つデータ値に対して変動が異なることを意味します。 例として、世界の異なる集団を比較した場合、所得の分散は平均所得に比例して大きくなる傾向がある。 いくつかの小さな地域単位(例えばアメリカの郡)を考え、それぞれの郡内の所得の平均と分散を求めると、平均所得の高い郡は分散も高いことが一般的です。

分散安定化変換は、分散-平均の関係を取り除き、平均に対して分散が一定になるようにすることを目的としています。 分散安定化変換の例としては、標本相関係数に対するフィッシャー変換、ポアソンデータ(計数データ)に対する平方根変換やアンスコム変換、回帰分析に対するBox-Cox変換、比率(二項データ)に対するアークサイン平方根変換や角度変換があります。 比例データの統計解析にはよく使われるが、二項比率にはロジスティック回帰、非二項比率にはロジット変換がそれぞれ適切であり、特にII型誤差が減少することから、アークサイン平方根変換は推奨されない

コメントを残す

メールアドレスが公開されることはありません。