Zum Hauptinhalt springen Zur Suche springen Zur Hauptnavigation springen
Menü

Nichtlineare Regression


Die nichtlineare Regression wird dazu verwendet, ein Modell, das einen funktionalen Zusammenhang zwischen einer unabhängigen Variable X und einer abhängigen Variable Y beschreibt, an gegebene Daten anzupassen.


Schritt 1: Auswahl des Modells 

Hat man sich für eine nichtlineare Regression als Analysemethode entschieden, so benötigt man ein Modell, das an die Daten angepasst werden soll. Als Beispiel betrachten wir Daten über den Zerfall eines radioaktiven Isotops: 

Die unabhängige X-Variable beschreibt die Zeit in Sekunden, die Y-Variable entspricht dem experimentell gemessenen prozentualen Anteil zum Zeitpunkt X noch nicht zerfallener Isotope. Nun ist aus der Physik bekannt, dass der Zerfallsprozess durch ein exponentielles Zerfallsmodell beschrieben wird, das wir als mathematisches Modell auswählen. 

Die zugehörige Formel hat die folgende Gestalt: Y = Span ⋅ exp (− K ⋅ X ) + Plateau Das Modell stellt in allgemeiner Form einen funktionellen Zusammenhang zwischen einer unabhängigen Variable X (z.B. Zeit) und einer abhängigen Variable Y (z.B. Anteil nicht-zerfallener Isotope) dar. 

Zusätzlich enthält jedes Modell Parameter, in unserem Beispiel sind dies: 

Parameter: Plateau – untere Schranke des Zerfalls 

Span – Span + Plateau ist Ausgangswert zur Zeit t = 0 

K – Rate des Zerfalls (in 1/Zeit)


Das „Anpassen eines Modells“ bedeutet nun genauer, unter allen zugelassen Werten für die Parameter im Modell diejenige Wahl zu treffen, die die gemessenen Daten „am besten“ erklärt. Die Standardmethode zur Auswahl dieses Modells ist die Minimierung der Abweichungsquadrate („least squares method“).

Wie findet man das richtige Modell? 

Bevor man eine Regressionsanalyse startet, muss man sich für ein Modell entscheiden. Sollte dies als eine schwierige Aufgabe erscheinen, scheint es verlockend, die Auswahl des Modells einem Computerprogramm (z.B. TableCurve von SYSTAT) zu überlassen. Vor diesem Vorgehen sei ausdrücklich gewarnt. Nimmt man beispielsweise nur die Klasse der Polynomfunktionen, so wird man in der Regel eine Funktion finden, die hinreichend gut die gemessenen Daten vorhersagt, wenn man den Grad des Polynoms groß genug wählt. Jedoch wird die Interpretation des Parameters der angepassten Polynomfunktion nur in den seltensten Fällen gelingen! Daher ist das Modell für eine wissenschaftliche Auswertung nicht zu gebrauchen. Genau dieses Problem stellt sich auch bei der automatisierten Auswahl eines Modells durch einen Computer. Dieser hat keinerlei Kenntnisse über den wissenschaftlichen Hintergrund des zugrunde liegenden Experiments und kann diesen daher bei der Modellauswahl nicht berücksichtigen. Dies ist jedoch Voraussetzung für die Interpretierbarkeit der Parameter des Modells. Zusammengefasst bedeutet dies: die Modellauswahl ist keine mathematische oder statistische Aufgabe, sondern eine wissenschaftliche. Möchte man eine physikalischen, chemischen oder biologischen Zusammenhang erklären, muss die Modellauswahl von Wissenschaftlern mit dem entsprechenden Expertenwissen getroffen werden. Nach der Durchführung der Regressionsanalyse besteht die Möglichkeit, die Güte der Modellanpassung zu bewerten und ggf. ein erweitertes oder anderes Modell anzupassen. 

Schritt 2: Auswahl der anzupassenden Parameter, Nebenbedingungen

Hat man ein Modell ausgewählt, so muss man entscheiden, welche Parameter an die Daten angepasst werden sollen, in welchem Bereich diese variieren dürfen und welche Parameter vor der Anpassung auf einen festen Wert gesetzt werden. Betrachten wir erneut das Modell für den radioaktiven Zerfall, Y = Span ⋅ exp (− K ⋅ X ) + Plateau so ist bekannt, dass im Grenzwert großer Zeit alle radioaktiven Isotope zerfallen sind. Daher ist es geboten, in diesem Fall den Parameter Plateau = 0 zu setzen und nicht durch die Regression anzupassen. Da es sich um einen abfallenden Zerfallsprozess handelt, ist ebenfalls die Nebenbedingung K > 0 sinnvoll, da für negative K ein Wachstumsprozess dargestellt wird. 

Schritt 3: Auswahl der Startwerte 

Nichtlineare Regression ist ein iterativer Prozess. Daher ist es erforderlich, den anzupassenden Parametern Startwerte zuzuordnen. Dies kann von großer Bedeutung sein, da bei falsch gesetzten Startwerten der Iterationsprozess u.U. nicht konvergiert. Hat man Startwerte ausgewählt, empfiehlt es sich, das Anfangsmodell über die gegebenen Daten zu zeichnen, um zu überprüfen, dass das Startmodell zumindest grob an die Daten angepasst ist. 

Schritt 4: Ausführung der Analyse und Interpretation der Ergebnisse 

Hat man die nichtlineare Regression ausgeführt, so sind folgende Dinge zu beachten: • Beschreibt das angepasste Modell die Daten gut? Zur Beantwortung dieser Frage genügt gelegentlich ein Blick auf den Graphen der Funktion und die Daten. Hat man z.B. das falsche Modell gewählt, kann es vorkommen, dass der Konvergenzpunkt der Modellparameter wenig mit den Daten zu tun hat. Ähnliches kann bei falscher Wahl der Anfangsparameter geschehen. Schließlich gibt es statistische Tests, um die Güte der Anpassung zu bewerten. • Sind die angepassten Parameter plausibel? Der Computer, der die Anpassung durchführt, hat keine Kenntnis der wissenschaftlichen Bedeutung der Parameter. Daher ist als erstes zu überprüfen, ob die berechneten Parameter plausibel im Sinne einer wissenschaftlichen Interpretierbarkeit sind. Kommt z.B. in der Anpassung des radioaktiven Zerfalls ein Parameter Span < 0 heraus, so kann dies zwar statistisch die beste Anpassung ergeben, physikalisch ergibt sich jedoch kein Sinn, da Span die Anzahl nichtzerfallener Isotope zum Zeitpunkt t = 0 darstellt. Liegt ein solches wissenschaftlich unsinniges Resultat vor, so ist das Regressionsergebnis zu verwerfen. Eventuell kann man durch eine zusätzliche Nebenbedingung und eine erneute Analyse zu einem sinnvollen Ergebnis gelangen. • Wie präzise sind die Parameter? Wie bei jedem statistischen Punktschätzer sind auch bei den berechneten Werten der nichtlinearen Regression die zugehörigen Konfidenzintervalle von größter Bedeutung. In der Regel werden neben den Schätzern für die Parameter auch ihr Standardfehler (Standardabweichung des Punktschätzers) und das 95%-Konfidenzintervall angegeben. Ist dieses verhältnismäßig klein, liegt eine relativ sichere Schätzung vor, andernfalls ist die Schätzung mit großer Vorsicht zu betrachten. 

Schritt 5: Überprüfung der Voraussetzungen 

Jede Regressionsanalyse basiert auf bestimmten Voraussetzungen. Daher ist zu überprüfen, ob diese erfüllt sind: 
  • X ist deterministisch, die Variation liegt vollständig in Y. 
  • Die Streuung in Y folgt für festes X einer bekannten (meist Normal-)Verteilung.
  • Die Streuung in Y ist unabhängig von X gleich groß. • Die Beobachtungen sind unabhängig.