Was sind grundsätzliche Probleme von Machine Learning?

Die Zahl der Geburten in Bezug zur Zahl der Störche

Schauen wir uns einmal das Diagramm oben an.

Die Zahl der Störche steigt, die Zahl der geborenen Kinder ebenfalls. In manchen Jahren fällt die Zahl der gesichteten Störche allerdings und die Zahl der geborenen Kinder sinkt in diesen Zeiträumen proportional.

Schaut man sich die Daten an, so ist alles korrekt: Die Zahlen stimmen, die Zuordnung zu den Jahren ist auch richtig. Kein Zweifel: Unser Diagramm zeigt deutlich einen Zusammenhang zwischen der Zahl der Geburten und der Anzahl der Störche. Stimmt es also doch? Bringen Störche die Kinder? Natürlich nicht.

Hier hilft keine Maschine, denn die Interpretation dieses Schaubilds liegt beim Menschen. Der gesunde Menschenverstand stellt unmissverständlich klar, dass es zwischen der Zahl der Geburten und der Anzahl der gesichteten Störche keinen Zusammenhang gibt. Man ist nur versucht, durch die Art der Präsentation, dem sehr ähnlichen Verlauf der beiden Kurven und den tradierten Vorstellungen von kinderbringenden Störchen sofort eine Kausalität zu unterstellen.

Dieses Problem bezieht sich allgemein auf die Statistik und nicht immer sind die nicht vorhandenen Zusammenhänge so offensichtlich wie in diesem Beispiel. Die Stichwörter hierzu sind „Korrelation“ und „Kausalität“. Die Regel lautet: „Nur, weil Daten korrelieren, muss noch kein kausaler Zusammenhang zwischen ihnen bestehen.“ Mit anderen Worten: „Nur, weil die Kurven einen ähnlichen Verlauf zeigen, bedeutet es nicht, dass es einen Zusammenhang zwischen der Anzahl gesichteter Störche und der Zahl der Geburten gibt.“

Verschiedene Interessengruppen nutzen eine zufällige Korrelation unterschiedlicher Daten, um eine vermeintliche Kausalität zu suggerieren. Auf die Weise lässt sich beispielsweise eine Neiddebatte auslösen oder Ausländerhass schüren.

Es gibt viele Beispiele für Zusammenhänge, die sich zwar kausal auflösen lassen, deren derartige Auflösung aber sinnlos ist:

  • „Am Ort eines Brandes sehe ich auch immer die Feuerwehr. Legt die Feuerwehr die Brände?“
  • „Die Mehrzahl der Bevölkerung stirbt im Bett. Sollte man lieber nicht schlafen gehen?“
  • „Die Sterberate in Krankenhäusern ist höher als in Bibliotheken. Krankenhäuser sind viel gefährlicher als Bibliotheken.“

Wer sich für weitere faszinierende Beispiele von „Korrelation“ und „Kausalität“ interessiert, wird auf der Seite www.tylervigen.com/spurious-correlations fündig.

Für Machine Learning gilt

Der Computer ist geduldig, er wird auf Basis der eingesetzten Algorithmen einen Wert ausrechnen, auch wenn die verwendeten Daten überhaupt nichts miteinander zu tun haben. Diese scheinbare Objektivität durch den Einsatz einer Maschine – nach dem Motto: „Der Computer hat das so errechnet. Das muss stimmen.“ – kann zu einer kritiklosen Leichtgläubigkeit oder Technikgläubigkeit führen. Es gibt zwischen dem Bierkonsum auf dem letzten Familienfest und dem Aktienkurs von Apple keinen Zusammenhang, auch wenn der Computer einen errechnet haben sollte.

Gesunder Menschenverstand und Sachlichkeit bei der Datenauswahl sind immer noch die Basis für sinnvolle Ergebnisse. Der Computer kann dank Machine-Learning-Algorithmen eine größere Hilfe als früher sein, aber die Voraussetzung für sinnvolle Ergebnisse ist weiterhin eine im Vorhinein von Menschen verrichtete Analyse und Auswahl.