[ < ] [ globale Übersicht ] [ Kapitelübersicht ] [ Stichwortsuche ] [ > ]


Robuste Abstandsmaße

Als robuste Verfahren bezeichnet man in der Statistik Verfahren, die auch dann "vernünftige" Werte liefern, wenn die Eigenschaften der Daten nicht jenen theoretischen Voraussetzungen entsprechen, unter denen die Methode entwickelt bzw. optimiert wurde, wenn z.B. die tatsächliche Verteilung der stochastischen Störungen nicht jener Verteilung entspricht, für die eine Methode optimale Eigenschaften (z.B. kleinste Varianz) besitzt.

Bei diskreten, aus Messungen stammenden Daten tritt immer wieder der Fall ein, daß einzelne Werte - im Vergleich zu den übrigen Datenpunkten, die mit stochastisch gleichartigen Störungen ( "Rauschen" ) überlagert sind - in irgendeiner Weise verfälscht sind. In diesem Fall liegt den stochastischen Störungen eine Mischverteilung zugrunde.
Werte, die als Realisierung der vorwiegend aufgetretenen stochastischen Störung ("Rauschen") fraglich erscheinen, werden als Ausreißer bezeichnet.

Beispiel: Scanner

In jeder Stichprobe aus einer Grundgesamtheit, die zu einer unbeschränkten (z.B. normalverteilten) Zufallsgröße gehört, sind beliebig große bzw. beliebig kleine Werte (d.h. Werte oberhalb bzw. unterhalb jeder vorgegebenen Schranke) mit positiver Wahrscheinlichkeit zu erwarten. Deshalb ist das Erkennen und Ausscheiden von Ausreißern ("verdächtigen" Werten) nicht einfach.

Der Einfluß von Ausreißern auf die Lösung eines Approximationsproblems, d.h. auf die Approximationsfunktion g, hängt sehr stark von der gewählten Distanzfunktion $D_{p}$ ab. Je größer p ist, desto stärker wirken sich Ausreißer auf die Funktion g aus; am stärksten selbstverständlich bei der Maximumnorm, aber auch bei p = 2, bei der Euklidischen Norm, oft immer noch unerwünscht stark. Günstige Werte liegen etwa bei $p \approx 1.3$ ([Ekblom [183]]).

Beispiel: Robuste Schätzung eines Skalars

Falls die stochastischen Störungen $\delta_1,\dots,\delta_k$ Realisierungen einer Normalverteilung mit dem Mittelwert Null sind, dann liefert das Stichprobenmittel die optimale Schätzung für die ungestörte Größe c, da es unter allen linearen, erwartungstreuen Schätzfunktionen die kleinste Varianz besitzt. Falls die Verteilungsfunktion der Störungen jedoch geringfügig von jener der Normalverteilung abweicht, wenn z.B. eine Mischverteilung mit der Verteilungsfunktion

\[
   (1-\eps)\Phi + \eps H, \quad \eps \in [0,1], 
\]

vorliegt ( $\Phi$ bezeichnet die Verteilungsfunktion der Normalverteilung und H eine unbekannte Verteilungsfunktion), dann kann mit wachsendem $\eps$ die Varianz des Stichprobenmittels $\bar c_{2}$ sehr schnell steigen. $\bar c_{2}$ ist also (im statistischen Sinn) keine robuste Schätzfunktion, während $\bar c_{p}$ mit $p \in [1,2)$ wesentlich weniger empfindlich auf Änderungen der Verteilungsfunktion reagiert.

Der zentrale Grenzverteilungssatz liefert eine sehr allgemeine Aussage über die Konvergenz der Verteilungsfunktion einer Summe unabhängiger Zufallsgrößen gegen die Normalverteilung. Er wird sehr oft als Rechtfertigung verwendet, wenn Zufallserscheinungen, die sich aus der additiven Überlagerung einer Vielzahl zufälliger Einzeleffekte ergeben, durch die Normalverteilung beschrieben werden. Der zentrale Grenzverteilungssatz wurde damit zur Motivation für die bevorzugte Verwendung der tex2html_wrap_inline3084 -Norm. Dabei erklärt er allenfalls, warum viele in der Praxis auftretende Zufallsgrößen angenähert normalverteilt sind.

Historisch gesehen war für C. F. Gauß die Hauptmotivation für die Verwendung der $l_2$ -Norm in seiner Methode der kleinsten Quadrate die einfache Berechenbarkeit der "Ausgleichslösungen" aus linearen Gleichungssystemen.

Erst seit den sechziger Jahren wird die Frage untersucht, was passiert, wenn die Annahme einer Normalverteilung geringfügig gestört ist, und wie man zu robusten Schätzverfahren gelangt. Dabei stellte sich heraus, daß ein Ausgleich im Sinne der $l_{1}$ -Norm, aber auch mit $l_{p}$ -Normen mit $p \in (1,1.5]$ , zu robusteren, wenngleich rechenaufwendigeren Schätzverfahren führt.

Die Maximumnorm (die $l_{\infty}$ -Norm), die zu Schätzungen führt, die auf extreme Beobachtungen noch wesentlich empfindlicher reagiert als die entsprechenden $l_{2}$ -Schätzungen, kommt für praktische Datenanalysen nicht in Frage. (Bei der Funktionsapproximation hingegen wird fast immer die Maximumnorm verwendet.)


Die Wahl zwischen der $l_{2}$ -Norm und einer $l_{p}$ -Norm mit $p \in [1,2)$ wird von zwei Faktoren beeinflußt:

  1. Die $l_{p}$ -Normen mit $p \in [1,1.5]$ führen auf robuste Verfahren und sind aus diesem Grund der $l_{2}$ -Norm überlegen.
  2. Der Rechenaufwand für Verfahren der kleinsten Quadrate (Approximation auf der Grundlage der $l_{2}$ -Norm) ist deutlich geringer als bei anderen $l_{p}$ -Normen, da in diesem Fall nur lineare Gleichungssysteme zu lösen sind.
Bei "kleinen" Datenanalyseproblemen (mit einer kleinen Zahl von unbekannten Parametern), wo der Rechenaufwand keine dominante Rolle spielt, wird man - falls entsprechende Software vorhanden ist - Ausgleichsfunktionen im Sinne einer $l_{p}$ -Norm mit $p \in [1,1.5]$ ermitteln. Wo der Rechenaufwand jedoch von dominanter Bedeutung ist, z.B. bei großen Ausgleichsproblemen (mit hunderten oder tausenden Koeffizienten), wird im allgemeinen aus Effizienzgründen die Methode der kleinsten Quadrate vorgezogen.

* * *

Beispiel

 Scanner

Multispektrale Abtastsysteme (multispectral scanner) werden zur bildmäßigen Erfassung der Erdoberfläche, z. B. im Rahmen von Umweltschutzprojekten in Satelliten, aber auch in (Propeller-) Flugzeugen eingesetzt. Durch elektrische Einstreuungen aus der Umgebung des Scanners (Zündanlage der Motoren, Bordelektrik) können punktförmige Störungen (spikes) - pixel mit minimalem oder maximalem Grauwert - in der digitalen Bildverarbeitung auftreten.

* * *

 Robuste Schätzung eines Skalars

Um den Einfluß von den Meßfehlern $\delta_{i}$ auf die Ermittlung einer skalaren Größe c möglichst stark zu reduzieren, kann man z. B. die Messung k-mal wiederholen und den so erhaltenen Datenpunkten

y_{i}=c + \delta_{i}, \quad i=1, 2, \dots, k

jenen Wert $\bar {c}$ (als Schätzgröße für c) ermitteln, für den der Abstand

D(y,ce) = \|y - ce\|_{p} \qquad \mbox mit y := (y_{1},\ldots,y_{k})^{\top}, \quad e := (1,\dots,1)^{\top}

minimal wird. Für die wichtigsten Fälle der $l_{1}$ -, $l_{2}$ -, $l_{\infty}$ -Norm erhät man:
\begin{array}{lll}                                                  
p = 1       & \bar c_{1} =                                          
              \left \{                                              
                  \begin{array}{ll}                                 
                      y_{(\frac{k+1}{2})} & \mbox{$k$ ungerade} \\  
                      (y_{(\frac{k}{2})} + y_{(\frac{k}{2} + 1)})/2 
                                          & \mbox{$k$ gerade}       
                  \end{array}                                       
              \right.                                               
            & Stichprobenmedian
p = 2       & \bar c_{2}= \frac{1}{k} \sum \limits_{i=1}^{k} y_{i}
            & Stichprobenmittel und
p=  \infty  & \bar c_{\infty}= (y_{(1)} + y_{(k)})/2     
            & Spannweite

wobei $y_{(1)} \leq y_{(2)} \leq \dots \leq y_{(k)}$ die aufsteigenden Komponenten des Vektors y bezeichnet.

Für die 20 Meßwerte

99.4, 100.6, 98.4, 99.1, 101.0, 101.6, 93.8, 101.2, 99.9, 100.2

erhält man die Schätzgrößen

$$                                             
   \bar c_{1}^{10} = 100.05, \quad             
   \bar c_{2}^{10} = 99.52 \quad\mbox{und}\quad
   \bar c_{\infty}^{10} = 97.7.                
$$

Bei näherer Betrachtung der Meßwerte erkennt man, daß der Wert 93.8 im Vergleich zu den übrigen Werten "untypisch" klein ist. Fall die $\delta_{i}$ Realisierungen einer unbeschränkten (z. B. normalverteilten) Zufallsvariablen sind, dann sind allerding beliebig kleine (und beliebig große) Werte positiver Wahrscheinlichkeit zu erwarten. Andererseits könnte der Wert 93.8 in irgendeiner Weise verfäscht sein (z. B. durch schlechte Meßbedingungen), so daß er als nicht repräsentativ die Größe c und somit als "Ausreißer" anzusehen ist.

Läßt man den Wert 93.8 unberücksichtigt, dann erhält man für die restlichen 9 Beobachtungen:

\[                              
   \bar c_{1}^9 = 100.20, \quad 
   \bar c_{2}^9 = 100.16, \quad 
   \bar c_{\infty}^9 =100.00.   
\]

Die Änderungen der Approximationen $\bar c_{p}^{9} - \bar c_{p}^{10}$ ,

\[                                                         
   \bar c_{1}^{9} -      \bar c_{1}^{10}      = 0.15, \quad
   \bar c_{2}^{9} -      \bar c_{2}^{10}      = 0.64, \quad
   \bar c_{\infty}^{9} - \bar c_{\infty}^{10} = 2.30       
\]

ist dabei für die robuste $l_{1}$ -Norm am schwächsten und für die Maximum-Norm am stärksten.


[ < ] [ globale Übersicht ] [ Kapitelübersicht ] [ Stichwortsuche ] [ > ]