*Wissenschaftliches Programm*   *Liste der Vortragenden*

Sektion Plenum
Donnerstag, 21.09.2000, 9.00 Uhr, Großer Mathematik-Hörsaal, Trefftz-Bau

Der Fluch der hohen Dimension - Herausforderung für die Statistik

Ursula Gather, Universität Dortmund

Zur Erforschung unbekannter Sachzusammenhänge werden heute in den empirischen wie experimentellen Wissenschaften – erleichtert durch neue technische Möglichkeiten – Daten von enorm hoher Dimension und immer komplexerer Abhängigkeitsstruktur und Dynamik erhoben. Beispiele hierfür sind Online-Monitoring Daten in der Intensivmedizin, Handelsvolumen und -renditen auf Finanzmärkten, Qualitätsmerkmale bei komplexen Produktionsprozessen u. ä. Die hier erforderliche statistische Modellbildung basierend auf der Analyse der erhobenen hochdimensionalen Datenstrukturen stellt in zunehmendem Maße die Hauptherausforderung für die mathematische Statistik als Methodenwissenschaft dar, Herausforderung deshalb, weil eine Reihe prinzipieller Hürden die Lösung des Problems erheblich erschweren. Zum ersten fehlt natürlich ein eindeutiger Ordnungsbegriff im multivariaten Raum und einfache Visualisierungsmethoden, wie sie bei bis zu dreidimensionalen Daten in Frage kommen, sind in höheren Dimensionen nicht möglich. Die „Grand Tour“, d. h. der Versuch, die Daten zur Strukturerkennung in alle denkbaren Ebenen zu projizieren, scheitert mit wachsender Dimension rasch an der schieren Anzahl allein der einfachen Projektionen. Auch lassen sich interessante Strukturen etwa Ringstrukturen nicht notwendig durch Projektionen in niedriger- dimensionale Unterräume aufspüren. Zu allem kommt die grundlegende Erschwernis, dass selbst „große“ Datensätze hochdimensionaler Merkmale den Stichprobenraum viel zu dünn besetzen, als dass vorhandene multivariate Verfahren akzeptable Güteeigenschaften aufweisen könnten. Dieses letztgenannte Phänomen ist als „Fluch der hohen Dimension“ bekannt. Zu seiner Bewältigung sind in den letzten zehn bis fünfzehn Jahren neuartige statistische Methoden entwickelt worden, etwa Projection Pursuit-Prozeduren und neue Verfahren zur Dimensionsreduktion. Der Vortrag erläutert die Problematik der statistischen Analyse hochdimensionaler Datensätze und gibt einen ersten Überblick über Lösungsansätze und deren Eigenschaften. Literatur zum Thema:

[1]
Chen, C.-H., Li, K.-C. (1998), Can SIR be as Popular as Multiple Linear Regression?, Statistica Sinica, 8, 289-316.
[2]
Cox, D.R., Wermuth, N. (1996), Multivariate Dependencies, Chapman & Hall, London.
[3]
Hall, P., Li, K.-C. (1993), On Almost Linearity of Low Dimensional Projections from High Dimensional Data, The Annals of Statistics, 21, 867-889.
[4]
Huber, P.J. (1993), Projection Pursuit and Robustness, in: Morgenthaler, S., Ronchetti, E., Stahel, W.A. (eds.), New Directions in Statistical Data Analysis and Robustness, Birkhäuser, Basel, 139-146.
[5]
Li, K.-C. (1991), Sliced Inverse Regression for Dimension Reduction (with discussion), Journal of the American Statistical Association, 86, 316-342.
[6]
Velilla, S. (1998), Assessing the Number of Linear Components in a General Regression Problem, Journal of the American Statistical Association, 93, 1088-1098.