Google-Mitarbeiter Jason Mayes hat mit vielen Stunden Arbeit eine Einführung ins maschinelle Lernen erstellt, die unter Machine Learning 101 für alle frei verfügbar ist. Wer des Englischen mächtig ist, sollte sich das Ergebnis ansehen – aber Vorsicht: Mayes warnt, dass man zur Lektüre zwei Stunden ungestörte Zeit mitbringen sollte.
Ohnehin ist die Präsentation gut gemacht, denn es gibt grüne und blaue Seiten: Alle grünen Seiten sollen von allen gelesen und aufgenommen werden. Wer darüber hinaus ein noch tiefergehendes Interesse an der Materie hat, kann auch die blauen Seiten lesen; auf diesen werden allerdings fortgeschrittenere Kenntnisse erwartet, so dass man nicht drum herumkommt, das eine oder andere Mal einen unbekannten Begriff zu erforschen. Dabei sollen alle fett gedruckten Sätze zwei Mal gelesen werden.
Grundsätzlich dreht sich die Präsentation um die Fragen:
- Was ist Machine Learning und welche Arten gibt es?
- Wie funktioniert Machine Learning?
- Wie kann man Machine Learning einsetzen?
- Welche Richtung schlägt Machine Learning ein?
Ein kurzer Blick in die Präsentation
Los geht es mit Definitionen und zwar stellt Mayes zunächst klar, was unter Künstlicher Intelligenz, maschinellem Lernen und neuronalen Netzen zu verstehen ist. Danach zeigt er auf, dass schnelle Computer und ausgeklügelte Statistikverfahren zwar toll sind, aber dass auch diese scheitern werden, wenn die zur Verfügung stehende Datenqualität dürftig oder die zum Lernen getroffene Datenauswahl unpassend ist. Sein Beispiel bezieht sich auf die Unterscheidung zwischen Äpfeln und Orangen1: Nimmt man als zwei Eigenschaften bei der Unterscheidung die Farbe und das Gewicht, kommt man zu guten Ergebnissen. Nimmt man hingegen die Attribute Reifegrad und Anzahl der Kerne in der Frucht, lassen sich die jeweiligen Früchte nicht so einfach als Apfel oder Orange erkennen. Das Ergebnis hängt also entscheidend davon ab, welche Eigenschaften ein Mensch zuvor als relevant erkannt und benannt hat – hierzu braucht es Erfahrung und Gehirnschmalz.
Hinzu kommt das Problem der Visualisierung: Die Verteilung der untersuchten Elemente in einem zweidimensionalen Koordinatensystem darzustellen, klappt ganz gut. Beispielsweise kann man Farbe auf der x-Achse und Gewicht auf der y-Achse abbilden. Nimmt man eine dritte Eigenschaft hinzu, wie zum Beispiel Haupterntezeit, braucht man die dritte Dimension innerhalb des Koordinatensystems. Ab der vierten Eigenschaft lassen sich die Elemente grafisch nicht mehr anordnen. In der Praxis sind Daten mit 20 Attributen – also 20 Dimensionen – keine Seltenheit, was für den Computer kein Problem ist, aber keine grafische Repräsentation zulässt.
Ein 10-minütiges-Video bereitet das interessierte Publikum auf die tatsächlich Praxis des maschinellen Lernens vor. Das System soll Bier und Wein anhand der beiden Werte Farbe und Alkoholgehalt unterscheiden können. Es wird erklärt, wie die Daten für die beiden Eigenschaften erhoben werden. Wie mit den Daten ein Modell trainiert werden kann und auch wie sich das Erlernte überprüfen lässt. Anschließend wird das trainierte Modell auf Daten losgelassen, die es noch nicht kennt. Die Erwartung ist, dass anhand der genannten Eigenschaften das System mit hoher Sicherheit mitteilen kann, um welches Getränk es sich handelt. Bei diesem Ansatz handelt es sich um überwachtes Lernen („supervised learning“). Mayes geht auch auf auf unüberwachtes („unsupervised learning“) sowie auf bestärkendes Lernen („reinforcement learning“) ein.
Es lohnt sich
Bevor ich hier die gesamte Präsentation paraphrasiere, empfehle ich sie lieber weiter: Entsprechende Englischkenntnisse vorausgesetzt lohnt sich die ins Lesen investierte Zeit, denn die Einführung ist gelungen: Machine Learning 101
- Im Deutschen würde man eher zwischen „Äpfeln und Birnen“ unterscheiden. ↩