Kundenlogin  |  Impressum / Datenschutz  |  Kontakt   |  

Diskriminanzanalyse

Mit dem analySIS Add-In Diskriminanzanalyse ist es möglich ein mehrdimensionalen Klassifikator zu erzeugen.

Das Add-In wird u. a. bei einem großen Pharmakonzern in der Krebsforschung zur Unterscheidung von proliferierenden und nicht proliferierenden Krebszellen in der Forschung routinemäßig eingesetzt.



Beispiel



Die drei verschiedenen Formen (Dreieck, Viereck und Kreis) sollen automatisch klassifiziert werden. Dies ist mit einem Parameter wie z.B. dem Formfaktor nicht möglich. Mit Hilfe der Diskriminanzanalyse ist dies aber einfach. Hier werden Parameter wie Umfang, Rundheit, Feret Max und Min, Aspektverhältnis mit Hilfe einer Lernroutine miteinander verknüpft.


Die Diskriminanzanalyse trennt nun die Dreiecke (rot) von den Kreisen (grün) und die Vierecke (blau) voneinander. Je weiter die Bereiche auseinander liegen desto besser lassen sich zwei Klassen voneinander trennen.


In diesem Fall lassen sich nun die drei verschiedenen Formen gut voneinander unterscheiden und somit klassifizieren.


Eine Formklassifikation mit Hilfe der Diskriminanzanalyse wird in dem Add-In Rußanalyse dargestellt.



Erläuterungen zur Diskriminanzanalyse

Bestimmung der Diskriminanzfunktionen

Das Add-In Diskriminanzanalyse klassifiziert Objekte mit Hilfe der linearen Diskriminanzanalyse:

Die Diskriminanzanalyse ist eine Klasse von statistischen Verfahren, deren Ziel es ist, Objekte aufgrund ihrer Merkmale und Eigenschaften einer von mehreren a-priori festgelegten Klassen, Populationen oder Kategorien zuzuordnen oder die für solch eine Zuordnung wichtigsten Merkmale zu finden. Die Zuordnungsregel wird von einer Stichprobe schon klassifizierter Objekte abgeleitet. Dieser allgemeine Zugang ermöglicht die Anwendung von Diskriminanzanalyseverfahren in sehr verschiedenen Bereichen praktischer Problemstellungen, z.B. in der Medizin (Diagnostik), der Biologie (Systematik, automatisiertes Auszählen von Kolonien auf Kulturschalen), der industriellen Fertigung (Qualitätskontrolle), bei Sicherungssystemen, der Schrifterkennung oder der Militäraufklärung (Objekterkennung).

Mit den aus der Diskriminanzanalyse erzeugten Diskriminanzfunktionen lassen sich Voraussagen für Fälle machen, die bislang noch keiner Gruppe zugeordnet wurden.

Liegen nur zwei Gruppen / Klassen vor, so ist zur Trennung lediglich eine einzige Diskriminanzfunktion A notwendig. Die Diskriminanzfunktion A lässt sich als Linearkombination der Variablen Xi in folgender Form darstellen:

A = v0 + v1X1 + v2X2 + ... viXi

mit:
A, B = Diskriminanzfunktion
Xi = Merkmalsvariable
vi , wi = Diskriminanzkoeffizienten der Markmalsvariable Xi

Im Fall von drei und mehreren Gruppen / Klassen genügt eine Diskriminanzfunktion nicht mehr, um die Gruppen zufriedenstellend zu trennen. Nach Ermittlung einer ersten Diskriminanzachse verbleibt in der Regel noch 'diskriminatorisches Potential' (große Überlappungsbereiche), so dass noch weitere Achsen zu bestimmen sind. Bei G Gruppen lassen sich G – 1 Diskriminanzfunktionen bilden. Dabei sollte die Anzahl der Diskriminanzfunktionen nicht größer als die Anzahl der Merkmalsvariablen sein. Erfahrungsgemäß liefern nicht alle Funktionen einen signifikanten Beitrag zur Trennung der Gruppen, so dass es genügt, nur einige zu extrahieren. Nicht alle potentiellen Diskriminanzfunktionen verringern die Überlappungsbereiche zwischen den Gruppen entscheidend. Empirische Erfahrungen zeigen, dass man auch bei einer großen Anzahl von Gruppen und Merkmalsvariablen häufig mit zwei Diskriminanzfunktionen auskommt (Cooley, Lohnes 1971 S.244; Backhaus u.a. 1996, S.213) In diesem Add-In werden nur zwei Diskriminanzfunktionen zur Trennung herangezogen (in der Diskriminanzanalyse Ergebnistabelle: Nicht-standardisierte Koeffizienten der Diskriminanzfunktionen)

A = v0 + v1X1 + v2X2 + ... viXi
B = w0 + w1X1 + w2X2 + ... wiXi

Diese beiden Gleichungen spannen einen 2-dimensionalen Fläche auf, in der die Gruppen / Klassen räumlich voneinander getrennt sind. Diese Fläche wird im Streudiagramm dargestellt.

Maß der Bedeutung der Diskriminanzfunktionen

In der Diskriminanzanalyse werden mehrere Funktionen berechnet, die den Zusammenhang zwischen der gruppierenden Variablen und den unabhängigen Variablen beschreiben.. Dies sind die sogenannten kanonischen Diskriminanzfunktionen. Die Anzahl von Funktionen ist entweder gleich der Anzahl unabhängiger Variabler, oder der Anzahl von Gruppen (minus eins) – es gilt der kleinere Wert. Die Funktionen, die verschiedene Gruppeneigenschaften zueinander in Beziehung setzen, dienen zur Vorhersage des Wertes der gruppierenden (abhängigen) Variablen. Manche sind darin effektiver als andere. Diese Effektivität findet ihren Ausdruck in der Größe des Eigenwertes: Je größer der Eigenwert, desto größer ist der Anteil der Varianz der gruppierenden Variable, der durch die entsprechende Funktion erklärt werden kann. Die Funktionen werden in der Reihenfolge ihrer Eigenwerte aufgelistet. Die Eigenwertanteile (Varianz Prozent)summieren sich auf 100 %.

Trennkraft der Diskriminanzfunktionen

Zur Beschreibung der Trennkraft der Diskriminanzfunktionen werden hier zwei Maße aufgeführt.

Kanonische Korrelation (C.C.): Dies ist ein bestimmtes Maß für die Abhängigkeit der gruppierenden Variablen von der gegebenen Funktion. Je größer die (C.C.) ist, desto besser werden die Gruppen durch eine Diskriminanzfunktion getrennt. Die C.C. wird aus dem Eigenwert (EV) der Funktionen folgendermaßen berechnet: C. C. = EV / (EV-1)

Wilks' Lambda: Dies ist ein kumulativer Wert, aus dem das Chi-Quadrat und der P-Wert der Funktionen berechnet werden können. Wilks' Lambda wird aus der Kanonischen Korrelation berechnet, indem man ihr Quadrat von eins subtrahiert und dann mit allen nachfolgenden Werten des Wilks' Lambda multipliziert. Je kleiner Wilks' Lambda, desto besser sind die Gruppen durch eine Diskriminanzfunktion getrennt (desto unterschiedlicher sind die Gruppen / Klassen).

Klassifizierung von Objekten

Für die Zuordnung von Objekten mit unbekannter Gruppen / Klassenzugehörigkeit zu vorgegebenen Gruppen / Klassen wird in diesem Add-In das Distanzkonzept umgesetzt.

Nach dem Distanzkonzept wird ein Objekt derjenigen Gruppe zugeordnet, zu deren Gruppenmittelpunkt (Zentroid) es den geringsten Abstand aufweist.

In diesem Add-In werden aber nur die ersten beiden Funktionen berücksichtigt und somit liegt eine 2- dimensionale Fläche (Streudiagramm) vor. Auf dieser Fläche werden die entsprechenden Entfernungen zu den einzelnen Zentoiden berechnet Ein verallgemeinertes Distanzmaß sind die Mahalanobis-Distanzen zwischen den Gruppen (oben rechts in der Matrix). Die Mahalanobis-Distanz ist ein Maß für den Abstand der Gruppen, der sich durch die mittleren Funktionswerte innerhalb ergibt (alle Funktionen zusammen genommen). Eine große Mahalanobis-Distanz bedeutet, dass die Gruppen durch die Funktionen gut getrennt werden, so dass es wenig wahrscheinlich ist, dass ein zu einer Gruppe gehörender Fall fälschlicherweise anders klassifiziert wird. Umgekehrt bedeutet eine kleine Distanz eine unscharfe Trennung.