l0-Norm, l1-Norm, l2-Norm, ... , l-infinity Norm - Rorasa's blog

Ich beschäftige mich in letzter Zeit viel mit dem Thema Norm und es ist an der Zeit, darüber zu sprechen. In diesem Beitrag werden wir über eine ganze Familie von Normen sprechen.

Was ist eine Norm?

Mathematisch ist eine Norm die Gesamtgröße oder Länge aller Vektoren in einem Vektorraum oder Matrizen. Der Einfachheit halber kann man sagen, dass je höher die Norm ist, desto größer ist die (Wert in) Matrix oder der Vektor. Die Norm kann in vielen Formen und unter vielen Namen auftreten, einschließlich dieser populären Namen: Euklidischer Abstand, mittlerer quadratischer Fehler usw.

Meistens wird die Norm in einer Gleichung wie dieser erscheinen:

$\left \| x \right \|$ wobei $x$ ein Vektor oder eine Matrix sein kann.

Zum Beispiel ist die euklidische Norm eines Vektors $a = \begin{bmatrix} 3 \\ -2 \\ 1 \end{bmatrix}$ $\left \| a \right \|_2=\sqrt{3^2+(-2)^2+1^2}=3.742$ , was der Größe des Vektors $a$

Das obige Beispiel zeigt, wie man eine euklidische Norm, oder formal eine $l_2$ -Norm genannt, berechnet. Es gibt noch viele andere Arten von Normen, die hier nicht erklärt werden können, aber für jede einzelne reelle Zahl gibt es eine entsprechende Norm (Beachten Sie das betonte Wort reelle Zahl, das bedeutet, dass es nicht nur auf ganze Zahlen beschränkt ist.)

Formell ist die $l_p$ -Norm von $x$ wie folgt definiert:

$\left \| x \right \|_p = \sqrt[p]{\sum_{i}\left | x_i \right |^p}$ wobei $p \epsilon \mathbb{R}$

Das war’s! Die p-te Wurzel einer Summierung aller Elemente zur p-ten Potenz nennen wir eine Norm.

Das Interessante ist, dass, obwohl alle $l_p$ -Normen einander sehr ähnlich sind, ihre mathematischen Eigenschaften sehr unterschiedlich sind und sich daher auch ihre Anwendung dramatisch unterscheidet. Im Folgenden werden wir uns einige dieser Normen im Detail ansehen.

l0-Norm

Die erste Norm, die wir besprechen werden, ist eine $l_0$ -Norm. Per Definition ist die $l_0$ -Norm von $x$

$\left \| x \right \|_0 = \sqrt[0]{\sum_{i}x_i^0}$

Streng genommen ist die $l_0$ -Norm keine eigentliche Norm. Es handelt sich um eine Kardinalitätsfunktion, die in der Form von $l_p$ -norm definiert ist, obwohl viele Leute sie als Norm bezeichnen. Es ist ein bisschen schwierig, mit ihr zu arbeiten, weil sie eine Null-Potenz und eine Null-Wurzel enthält. Natürlich wird jede $x>0$ -Norm zu einer solchen, aber die Probleme mit der Definition der nullten Potenz und insbesondere der nullten Wurzel bringen die Dinge hier durcheinander. In der Realität verwenden die meisten Mathematiker und Ingenieure stattdessen diese Definition der $l_0$ -Norm:

$\left \| x \right \|_0 = \#(i | x_i \neq 0)$

Das ist die Gesamtzahl der Nicht-Null-Elemente in einem Vektor.

Da es sich um eine Zahl von Nicht-Null-Elementen handelt, gibt es viele Anwendungen, die die $l_0$ -Norm verwenden. In letzter Zeit ist sie noch mehr in den Fokus gerückt, weil das Compressive Sensing Schema aufkam, das versucht, die spärlichste Lösung des unterbestimmten linearen Systems zu finden. Die spärlichste Lösung ist die Lösung mit den wenigsten Nicht-Null-Einträgen, d.h. mit der niedrigsten $l_0$ -Norm. Dieses Problem wird in der Regel als $l_0$ -Norm-Optimierungsproblem oder $l_0$ -Optimierung bezeichnet.

l0-Optimierung

Viele Anwendungen, einschließlich Compressive Sensing, versuchen, die $l_0$ -Norm eines Vektors zu minimieren, der einigen Nebenbedingungen entspricht, und werden daher „ $l_0$ -Minimierung“ genannt. Ein Standard-Minimierungsproblem wird wie folgt formuliert:

$min \left \| x \right \|_0$ unter $Ax = b$

Das ist jedoch keine leichte Aufgabe. Aufgrund der fehlenden mathematischen Repräsentation der $l_0$ -Norm wird die $l_0$ -Minimierung von Informatikern als NP-hartes Problem angesehen, was einfach bedeutet, dass es zu komplex und fast unmöglich zu lösen ist.

In vielen Fällen wird das $l_0$ -Minimierungsproblem zu einem Norm-Problem höherer Ordnung entspannt, wie z.B. $l_1$ -Minimierung und $l_2$ -Minimierung.

l1-Norm

In Anlehnung an die Definition der Norm wird die $l_1$ -Norm von $x$ wie folgt definiert

$\left \| x \right \|_1 = \sum_{i} \left | x_i \right |$

Diese Norm ist in der Norm-Familie recht verbreitet. Sie hat viele Namen und viele Formen in verschiedenen Bereichen, nämlich die Manhattan-Norm ist ihr Spitzname. Wenn die $l_1$ -Norm für eine Differenz zwischen zwei Vektoren oder Matrizen berechnet wird, d.h.

$SAD(x_1,x_2) = \left \| x_1-x_2 \right \|_1 = \sum \left | x_{1_i}-x_{2_i} \right |$

wird sie unter Informatikern als Summe der absoluten Differenz (SAD) bezeichnet.

Im allgemeineren Fall der Messung von Signaldifferenzen kann sie auf einen Einheitsvektor skaliert werden durch:

$MAE(x_1,x_2) = \frac{1}{n} \left \| x_1-x_2 \right \|_1 = \frac {1} {n} \sum \left | x_{1_i} - x_{2_i} \right |$ wobei $n$ eine Größe von $x$ ist.

Dies wird als Mean-Absolute Error (MAE) bezeichnet.

l2-Norm

Die populärste aller Normen ist die $l_2$ -Norm. Sie wird in fast allen Bereichen der Technik und der Wissenschaft insgesamt verwendet. Nach der grundlegenden Definition ist die $l_2$ -Norm definiert als

$\left \| x \right \|_2 = \sqrt{\sum_{i}x_i^2}$

$l_2$ -Norm ist bekannt als euklidische Norm, die als Standardgröße zur Messung einer Vektordifferenz verwendet wird. Wenn die euklidische Norm für eine Vektordifferenz berechnet wird, spricht man wie bei der $l_1$ -Norm von einem euklidischen Abstand:

$\left \| x_1-x_2 \right \|_2 = \sqrt{\sum_i (x_{1_i}-x_{2_i})^2}$

oder in seiner quadrierten Form, die unter Computer-Vision-Wissenschaftlern als Sum of Squared Difference (SSD) bekannt ist:

$SSD(x_1,x_2) = \left \| x_1-x_2 \right \|_2^2 = \sum_i (x_{1_i}-x_{2_i})^2$

Seine bekannteste Anwendung im Bereich der Signalverarbeitung ist die Messung des mittleren quadratischen Fehlers (MSE), die zur Berechnung einer Ähnlichkeit, einer Qualität oder einer Korrelation zwischen zwei Signalen verwendet wird. MSE ist

$MSE(x_1,x_2) = \frac{1}{n} \left \| x_1-x_2 \right \|_2^2 = \frac{1}{n} \sum_i (x_{1_i}-x_{2_i})^2$

Wie bereits im Abschnitt $l_0$ -Optimierung besprochen, entspannen sich viele $l_0$ -Optimierungsprobleme aufgrund vieler Probleme sowohl aus rechnerischer als auch aus mathematischer Sicht und werden stattdessen zu $l_1$ – und $l_2$ -Optimierung. Aus diesem Grund werden wir nun die $l_2$ -Optimierung diskutieren.

l2-Optimierung

Wie im Fall der $l_0$ -Optimierung wird das Problem der Minimierung der $l_2$ -Norm formuliert durch

$min \left \| x \right \|_2$ in Abhängigkeit von $Ax = b$

Angenommen, die Constraint-Matrix $A$ hat vollen Rang, so ist dieses Problem nun ein untergeordnetes System, das unendlich viele Lösungen hat. Das Ziel in diesem Fall ist es, die beste Lösung, d.h. mit der niedrigsten $l_2$ -Norm, aus diesen unendlich vielen Lösungen herauszufinden. Dies könnte eine sehr mühsame Arbeit sein, wenn sie direkt berechnet werden müsste. Zum Glück gibt es einen mathematischen Trick, der uns bei dieser Arbeit sehr helfen kann.

Mit Hilfe eines Tricks der Lagrange-Multiplikatoren können wir dann eine Lagrange-Gleichung

$\mathfrak{L}(\boldsymbol{x}) = \left \| \boldsymbol{x} \right \|_2^2+\lambda^{T}(\boldsymbol{Ax}-\boldsymbol{b})$

definieren, wobei $\lambda$ der eingeführte Lagrange-Multiplikator ist. Nehmen wir die Ableitung dieser Gleichung gleich Null, um eine optimale Lösung zu finden, so erhalten wir

$\hat{\boldsymbol{x}}_{opt} = -\frac{1}{2} \boldsymbol{A}^{T} \lambda$

Setzen wir diese Lösung in die Nebenbedingung ein, so erhalten wir

$\boldsymbol{A}\hat{\boldsymbol{x}}_{opt} = -\frac{1}{2}\boldsymbol{AA}^{T}\lambda=\boldsymbol{b}$

$\lambda=-2(\boldsymbol{AA}^{T})^{-1}\boldsymbol{b}$

und schließlich

$\hat{\boldsymbol{x}}_{opt}=\boldsymbol{A}^{T} (\boldsymbol{AA}^{T})^{-1} \boldsymbol{b}=\boldsymbol{A}^{+} \boldsymbol{b}$

Mit Hilfe dieser Gleichung können wir nun sofort eine optimale Lösung für das $l_2$ -Optimierungsproblem berechnen. Diese Gleichung ist als Moore-Penrose-Pseudoinverse bekannt, und das Problem selbst wird gewöhnlich als Least-Square-Problem, Least-Square-Regression oder Least-Square-Optimierung bezeichnet.

Auch wenn die Lösung der Least-Square-Methode einfach zu berechnen ist, muss sie nicht unbedingt die beste Lösung sein. Wegen der glatten Natur der $l_2$ -Norm selbst ist es schwierig, eine einzige, beste Lösung für das Problem zu finden.

Im Gegenteil, die $l_1$ -Optimierung kann viel bessere Ergebnisse als diese Lösung liefern.

l1-Optimierung

Wie üblich wird das $l_1$ -Minimierungsproblem formuliert als

$min \left \| x \right \|_1$ vorbehaltlich $Ax = b$

Da die Natur der $l_1$ -Norm nicht glatt ist wie im Fall der $l_2$ -Norm, ist die Lösung dieses Problems viel besser und eindeutiger als die $l_2$ -Optimierung.

Aber obwohl das Problem der $l_1$ -Minimierung fast die gleiche Form hat wie die $l_2$ -Minimierung, ist es viel schwieriger zu lösen. Da dieses Problem keine glatte Funktion hat, ist der Trick, den wir zur Lösung des $l_2$ -Problems verwendet haben, nicht mehr gültig. Die einzige Möglichkeit, die Lösung zu finden, besteht darin, direkt nach ihr zu suchen. Die Suche nach der Lösung bedeutet, dass wir jede einzelne mögliche Lösung berechnen müssen, um die beste aus dem Pool der „unendlich vielen“ möglichen Lösungen zu finden.

Da es keinen einfachen Weg gibt, die Lösung für dieses Problem mathematisch zu finden, ist der Nutzen der $l_1$ -Optimierung seit Jahrzehnten sehr begrenzt. Erst in jüngster Zeit hat die Entwicklung von Computern mit hoher Rechenleistung es ermöglicht, alle Lösungen zu „durchforsten“. Durch den Einsatz vieler hilfreicher Algorithmen, insbesondere der konvexen Optimierung, wie z. B. der linearen Programmierung oder der nichtlinearen Programmierung usw., ist es nun möglich, die beste Lösung für diese Frage zu finden. Viele Anwendungen, die auf $l_1$ -Optimierung beruhen, einschließlich des Compressive Sensing, sind jetzt möglich.

Es gibt heutzutage viele Toolboxen für $l_1$ -Optimierung. Diese Toolboxen verwenden in der Regel unterschiedliche Ansätze und/oder Algorithmen, um die gleiche Fragestellung zu lösen. Beispiele für diese Toolboxen sind l1-magic, SparseLab, ISAL1,

Nun haben wir viele Mitglieder der Normenfamilie besprochen, beginnend mit $l_0$ -Norm, $l_1$ -Norm und $l_2$ -Norm. Es ist an der Zeit, zum nächsten überzugehen. Da wir ganz am Anfang besprochen haben, dass es jede beliebige l-was-auch-immer-Norm geben kann, die der gleichen grundlegenden Definition von Norm folgt, wird es viel Zeit in Anspruch nehmen, über sie alle zu sprechen. Glücklicherweise sind die übrigen Normen, abgesehen von $l_0$ -, $l_1$ – und $l_2$ -Norm, eher unüblich und daher nicht so interessant. Wir werden uns also den Extremfall der Norm ansehen, die $l_{\infty}$ -Norm (l-unendlich-Norm).

l-unendlich-Norm

Wie immer lautet die Definition für die $l_{\infty}$ -Norm

$\left \| x \right \|_{\infty} = \sqrt[\infty]{\sum_i x_i^{\infty}}$

Nun sieht diese Definition wieder knifflig aus, aber eigentlich ist sie ziemlich einfach. Betrachten wir den Vektor $\boldsymbol{x}$ , sagen wir, wenn $x_j$ der höchste Eintrag im Vektor $\boldsymbol{x}$ ist, durch die Eigenschaft der Unendlichkeit selbst, können wir sagen, dass

$x_j^{\infty}\gg x_i^{\infty}$ $\forall i \neq j$

dann

$\sum_i x_i^{\infty} = x_j^{\infty}$

dann

$\left \| x \right \|_{\infty} = \sqrt[\infty]{\sum_i x_i^{\infty}} = \sqrt[\infty]{x_j^{\infty}} = \left | x_j \right |$

Jetzt können wir einfach sagen, dass die $l_{\infty}$ -Norm

$\left \| x \right \|_{\infty} = max(\left | x_i \right |)$

das ist der maximale Betrag der Einträge in diesem Vektor. Damit ist die Bedeutung der $l_{\infty}$ -Norm

sicher entmystifiziert. Jetzt haben wir die ganze Familie der Normen von $l_0$ bis $l_{\infty}$ besprochen, und ich hoffe, dass diese Diskussion dazu beiträgt, die Bedeutung der Norm, ihre mathematischen Eigenschaften und ihre Auswirkungen in der Praxis zu verstehen.

Referenz und weiterführende Literatur:

Mathematische Norm – wikipedia

Mathematische Norm – MathWorld

Michael Elad – „Sparse and Redundant Representations : From Theory to Applications in Signal and Image Processing“ , Springer, 2010.

Linear Programming – MathWorld

Compressive Sensing – Rice University

Edit (15/02/15) : Ungenauigkeiten im Inhalt korrigiert.

Arquidia Mantina

Arquidia Mantina

l0-Norm, l1-Norm, l2-Norm, … , l-infinity Norm

Schreibe einen Kommentar Antworten abbrechen