l0-Norm, l1-Norm, l2-Norm, ... , l-infinity Norm - Rorasa's blog

最近はノルムに関することをよくやっているのでそろそろ話をしましょうか。

ノルムとは

数学的にはベクトル空間や行列のすべてのベクトルの大きさや長さを合計したものです。簡単のために、ノルムが高いほど、（中の）行列やベクトルは大きいと言うことができます。

ほとんどの場合、ノルムは次のような式で表されます：

$\left \| x \right \|$ ここで $x$ はベクトルまたは行列です。

例えば、ベクトル $a = \begin{bmatrix} 3 \\ -2 \\ 1 \end{bmatrix}$ のユークリッドノルムは $\left \| a \right \|_2=\sqrt{3^2+(-2)^2+1^2}=3.742$ で、これはベクトル $a$

上の例はユークリッドノルム、正式には $l_2$ ノルムの計算の仕方を示しています。実数にはそれに対応するノルムがあります（実数という言葉が強調されているのは、整数だけに限らないということです）

正式には $x$ の $l_p$ ノルムは次のように定義されます：

$\left \| x \right \|_p = \sqrt[p]{\sum_{i}\left | x_i \right |^p}$ where $p \epsilon \mathbb{R}$

以上です。

面白いのは、すべての $l_p$ ノルムが互いに非常に似ているように見えても、その数学的性質は非常に異なっており、したがってその応用も劇的に異なっていることです。

l0-norm

最初に取り上げるのは $l_0$ -norm です。定義によれば、 $x$ の $l_0$ -ノルムは

$\left \| x \right \|_0 = \sqrt[0]{\sum_{i}x_i^0}$

厳密には $l_0$ -ノルムは実際にはノルムではありません。多くの人がノルムと呼んでいるが、 $l_p$ -normの形で定義された基数関数である。この関数にはゼロ乗とゼロ根が存在するので、扱いが少し難しい。もちろん、どんな $x>0$ もそうなるのですが、ゼロ乗の定義の問題、特にゼロ根の問題が、このあたりを混乱させているのです。

$\left \| x \right \|_0 = \#(i | x_i \neq 0)$

ベクトル中の非ゼロ要素の総数 $l_0$ -norm>は、非ゼロ要素の数なので、非常に多くのアプリケーションで使用されています。最近では、劣決定連立方程式の最短解を求めるCompressive Sensingの台頭により、さらに注目されています。最短解とは、非ゼロ項目が最も少ない解、すなわち $l_0$ -normが最も小さい解を意味する。この問題は通常 $l_0$ -normの最適化問題または $l_0$ -optimisationと呼ばれる。

l0-optimisation

圧縮センシングを含む多くのアプリケーションは、ある制約に対応するベクトルの $l_0$ -normを最小化しようとするので「 $l_0$ -minimisation」と呼ばれる。標準的な最小化問題は次のように定式化される：

$min \left \| x \right \|_0$ subject to $Ax = b$

しかし、これを行うのは簡単なことではない。 $l_0$ -norm の数学的表現がないため、計算機科学者は $l_0$ -minimisation を NP-hard problem と見なし、単に複雑すぎて解くのがほとんど不可能であると言っているのである。

多くの場合、 $l_0$ 最小化問題は $l_1$ 最小化や $l_2$ 最小化などの高次ノルム問題に緩和される。

l1-norm

ノルムの定義に従って、 $x$ の $l_1$ ノルムは

$\left \| x \right \|_1 = \sum_{i} \left | x_i \right |$

このノルムはノルム族の中では非常にありふれたもので、 $l_1$ 最小化問題は $l_0$ 最小化問題よりも高次の問題である。マンハッタン・ノルムはその愛称であり、様々な分野で多くの名称と形式を持っている。もし $l_1$ ノルムが2つのベクトルや行列の差に対して計算されるなら、つまり

$SAD(x_1,x_2) = \left \| x_1-x_2 \right \|_1 = \sum \left | x_{1_i}-x_{2_i} \right |$

これはコンピュータビジョン研究者の間では絶対差分和（SAD）と呼ばれています。

より一般的な信号の差の測定の場合、単位ベクトルへのスケーリングは次のようになります：

$MAE(x_1,x_2) = \frac{1}{n} \left \| x_1-x_2 \right \|_1 = \frac {1} {n} \sum \left | x_{1_i} - x_{2_i} \right |$ ここで $n$ は $x$ のサイズです。

これは平均絶対誤差（MAE）として知られています。

l2-norm

すべてのノルムで最も有名なのが $l_2$ – ノームです。これは工学や科学全体のほとんどすべての分野で使われている。基本的な定義に従うと、 $l_2$ -normは

$\left \| x \right \|_2 = \sqrt{\sum_{i}x_i^2}$

$l_2$ -normはユークリッド・ノルムとしてよく知られていて、ベクトルの差を測る標準量として使われます。 $l_1$ -norm と同様に、ベクトルの差分に対してユークリッドノルムを計算すると、ユークリッド距離:

$\left \| x_1-x_2 \right \|_2 = \sqrt{\sum_i (x_{1_i}-x_{2_i})^2}$

またはその2乗形式で、コンピュータビジョン研究者の間ではSSD (Sum of Squared Difference) として知られる。

$SSD(x_1,x_2) = \left \| x_1-x_2 \right \|_2^2 = \sum_i (x_{1_i}-x_{2_i})^2$

信号処理分野で最もよく知られているアプリケーションは、2 つの信号間の類似性、品質、または相関を計算するために使用される平均二乗誤差 (MSE) の測定法です。 MSEは、

$MSE(x_1,x_2) = \frac{1}{n} \left \| x_1-x_2 \right \|_2^2 = \frac{1}{n} \sum_i (x_{1_i}-x_{2_i})^2$

最適化の項で述べたように、計算的な観点からも数学的な観点からも多くの問題があるため、多くの $l_0$ 最適化問題は、代わりに $l_1$ -や $l_2$ -最適化となって緩和されているのである。そこで、 $l_2$ の最適化について説明する。

l2-最適化

最適化の場合と同様に、 $l_2$ ノルムの最小化問題は

$min \left \| x \right \|_2$ subject to $Ax = b$

制約行列 $A$ がフルランクとすると、この問題は無限解の劣決定系であると言える。この場合の目標は、これらの無限の解の中から最良の解、すなわち最も低い $l_2$ ノルムを持つ解を引き出すことである。これを直接計算するとなると、非常に面倒な作業となる。

ラグランジュ乗数のトリックを使うと、ラグランジアン

$\mathfrak{L}(\boldsymbol{x}) = \left \| \boldsymbol{x} \right \|_2^2+\lambda^{T}(\boldsymbol{Ax}-\boldsymbol{b})$

ここで、 $\lambda$ は導入したラグランジュ乗数である。この式を0に微分して最適解を求めると

$\hat{\boldsymbol{x}}_{opt} = -\frac{1}{2} \boldsymbol{A}^{T} \lambda$

この解を制約条件に差し込むと

$\boldsymbol{A}\hat{\boldsymbol{x}}_{opt} = -\frac{1}{2}\boldsymbol{AA}^{T}\lambda=\boldsymbol{b}$

$\lambda=-2(\boldsymbol{AA}^{T})^{-1}\boldsymbol{b}$

そして最後に

$\hat{\boldsymbol{x}}_{opt}=\boldsymbol{A}^{T} (\boldsymbol{AA}^{T})^{-1} \boldsymbol{b}=\boldsymbol{A}^{+} \boldsymbol{b}$

この式を使って $l_2$ -最適化問題に対して瞬時に最適解を計算できるようになったのです。この式は Moore-Penrose Pseudoinverse としてよく知られており、この問題自体は通常 Least Square problem, Least Square regression, Least Square optimisation として知られています。

しかしながら、Least Square 法の解は簡単に計算できても、それが必ずしも最善の解である必要はありません。 $l_2$ -norm 自体が滑らかな性質を持っているため、この問題に対する単一の最適解を見つけるのは難しいのです。

l1-optimisation

通常、 $l_1$ 最小化問題は

$min \left \| x \right \|_1$ subject to $Ax = b$

$l_1$ ノームは $l_2$ ノームの場合のように滑らかではないので、この問題の解は $l_2$ -最適化よりもはるかに良く一意的である。

しかし、 $l_1$ -最小化の問題は $l_2$ -最小化とほとんど同じ形をしているにもかかわらず、解くのはずっと難しい。この問題は滑らかな関数を持たないので、 $l_2$ 問題を解くのに使ったトリックはもう通用しないのです。その解を見つけるために残された唯一の方法は、直接探索することである。解を求めるということは、可能な解を一つ一つ計算して、「無限にある」可能な解の中から最良のものを見つけるということです。

この問題の解を数学的に見つける簡単な方法はないので、 $l_1$ -最適化の有用性は何十年も非常に限られています。最近になって、計算能力の高いコンピュータの進歩により、すべての解を「掃引」することができるようになりました。多くの有用なアルゴリズム、すなわち線形計画法、あるいは非線形計画法などの凸最適化アルゴリズムを用いることで、この問題に対する最適解を見つけることが可能になったのである。圧縮センシングなど、 $l_1$ -最適化に依存する多くのアプリケーションが可能になりました。

現在、 $l_1$ -最適化のためのツールボックスが数多く提供されています。これらのツールボックスは通常、同じ問題を解決するために異なるアプローチやアルゴリズムを使っています。例えば、l1-magic, SparseLab, ISAL1,

ここまで、 $l_0$ -norm, $l_1$ -norm, $l_2$ -normから始まる多くのノルムファミリーのメンバーについて説明してきました。そろそろ次のものに移りましょう。ノルムの基本的な定義が同じであれば、l-whatever個のノルムが存在しうることは冒頭で述べた通りですが、それら全てについて話すにはかなりの時間がかかりそうです。幸い、 $l_0$ -, $l_1$ – , $l_2$ -ノルムを除けば、他のものは普通普通ではないので、それほど面白いものはありません。そこで、ノルムの極限である $l_{\infty}$ -ノルム（l-無限ノルム）を見てみましょう。

l-infinity norm

ノルムの定義はいつものように

$\left \| x \right \|_{\infty} = \sqrt[\infty]{\sum_i x_i^{\infty}}$

ここでこの定義はまた厄介に見えますが、実は非常に単純なんですよ。ベクトル $\boldsymbol{x}$ を考えてみましょう。 $x_j$ がベクトル $\boldsymbol{x}$ の最も大きい項目だとすると、無限大の性質そのものです。ということは、

$x_j^{\infty}\gg x_i^{\infty}$ $\forall i \neq j$

then

$\sum_i x_i^{\infty} = x_j^{\infty}$

then

$\left \| x \right \|_{\infty} = \sqrt[\infty]{\sum_i x_i^{\infty}} = \sqrt[\infty]{x_j^{\infty}} = \left | x_j \right |$

Now we can simply say the $l_{\infty}$ -norm is

$\left \| x \right \|_{\infty} = max(\left | x_i \right |)$

that is maximum entries’ magnitudes of that the vector.(そのベクターの最大エントリーの大きさを示す)と言えるのである。これで $l_{\infty}$ -norm

の意味が理解できたと思いますが、 $l_0$ から $l_{\infty}$ までのノルムについて説明しました。

参考文献：

Mathematical Norm – wikipedia

Mathematical Norm – MathWorld

Michael Elad – “Sparse and Redundant Representations .SparseとRedundantの表現”: From Theory to Applications in Signal and Image Processing” , Springer, 2010.

Linear Programming – MathWorld

Compressive Sensing – Rice University

Edit (15/02/15) : 内容が不正確なものを修正

線形計画法 – MathWorld

Compressive Sensing – Rice University

Arquidia Mantina

Arquidia Mantina

l0-Norm, l1-Norm, l2-Norm, … , l-infinity Norm

コメントを残すコメントをキャンセル

Arquidia Mantina

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル