Ein gutes Ergebnis auf Basis von Machine-Learning-Modellen steht und fällt mit der Qualität der zur Verfügung stehenden Daten. Im Folgenden finden sich einige praktische Probleme, die im Alltag beim Einsatz von Machine Learning auftreten.
Unvollständige Daten
Es ist weder ungewöhnlich noch unwahrscheinlich, dass bei einer Menge von tausenden Datenerhebungen einige Werte fehlen oder offensichtlich fehlerhaft sind. Beispielsweise lassen manche Teilnehmerinnen und Teilnehmer einer Befragung das Feld für das „Einkommen“ oder das „Alter“ leer. Oder es gibt Missverständnisse beim Ausfüllen eines Befragungsbogens, so dass im Feld „Alter“ beispielsweise „Hannover“ steht, weil die befragte Person beim Ausfüllen in der Zeile verrutscht ist.
Derlei offensichtliche Fehler lassen sich oftmals am unpassenden Datentyp erkennen. Um beim genannten Beispiel zu bleiben: Erwarte ich im Feld eine ein- bis dreistellige ganze Zahl und bekomme stattdessen einen String, dann kann ich den Wert ignorieren und lasse das Feld leer.
Zum Füllen leerer Felder lassen sich verschiedene Strategien zur Interpolation verwenden. Ein einfacher, aber effektiver Ansatz beispielsweise ist es, bei fehlenden Altersangaben den innerhalb der Befragung geltenden Median einzusetzen.
Zensierte Daten
Die Gründe für fehlende Angaben liegen nicht immer in Fehlern und Missverständnissen, sondern manchmal in der Zensur von Daten. Es ist naheliegend, dass nicht jede Befragung und Veröffentlichung von Daten einem Konzern, einer Partei, einer Lobby oder einer Regierung gefällt. Je nach Brisanz der Befragung und der Macht der durch die Erhebung potenziell betroffenen Interessengruppe muss man als Forscherin oder Forscher mit Gegenwind rechnen.
Dabei muss die Zensur gar nicht von außen einwirken: So ist es beispielsweise schwierig, vor einer Wahl den Stimmen-Anteil extremistischer Parteien vorherzusagen, denn die potentiellen Wählerinnen und Wähler radikaler Richtungen wissen häufig, dass ihre Wahl nicht den allgemein-gesellschaftlichen Wunschvorstellungen entspricht. Werden diese Wählerinnen und Wähler nach ihrer favorisierten Partei befragt, üben manche Befragte eine Selbst-Zensur aus und verschweigen der fragenden Person ihre tatsächlichen Wahl-Absichten oder nennen eine Partei, von der sie ausgehen können, dass sie eher den gesellschaftlichen Erwartungen entspricht.
Sehr unterschiedliche Datenquellen
Die Datenqualität kann innerhalb einer Erhebung schwanken, wenn verschiedene, sehr unterschiedliche Datenquellen existieren. Beispielsweise bekommt man Auskünfte von Studierenden direkt an der Universität einfacher Auskünfte als von anderen Gesellschaftsteilen. Dies muss in dem der Studie zugrundeliegenden Modell erwähnt werden, damit diejenigen, die die Daten auswerten, diese Art der Verzerrung berücksichtigen können.
Nicht repräsentative Daten
Eine Befragung zum öffentlichen Nahverkehr an einer Autobahnraststätte erhebt sicherlich andere Daten als am Hauptbahnhof einer Großstadt zur Hauptpendelzeit. Eine Befragung zum derzeitigen Rentenniveau vor einem Seniorenheim erhebt sicherlich andere Daten als vor einer weiterführenden Schule. Eine Befragung zum Schulsystem vor einer weiterführenden Schule zur Ferienzeit erhebt sicherlich andere Daten als zur Schulzeit. Insofern spielen Ort und Uhrzeit eine wichtige Rolle bei der Datenerhebung und müssen berücksichtigt werden.
Fazit
Das sind nur drei Beispiele dafür, dass oftmals scheinbar banale Bedingungen wie Ort und Zeit der Befragung bei der Datenqualität entscheidend sein können. Darüber hinaus gibt es viele weitere Beeinflussungsfaktoren, wie etwa die Befangenheit der Datenerhebenden, das zur Verfügung stehende Budget oder die zur Verfügung stehenden Hilfsmittel.
Betrachtet man abschließend die Probleme, zeigt sich, dass es einmal mehr auf Seiten der praktischen Datenerhebung darauf zu achten ist, dass die Datenqualität stimmt. Fehlende Qualität innerhalb der zur Verfügung stehenden Daten lässt sich auch mit den modernen Verfahren des Machine Learning nur zu einem sehr geringen Teil ausgleichen.
Als jemand, der Machine-Learning-Verfahren einsetzt, liegt es in meiner Verantwortung die Güte der Daten sicherzustellen, denn ansonsten sind bei mangelnder Datenqualität meine Ergebnisse wenig bis gar nichts wert.