Systemvoraussetzungen: Was brauche ich für Machine Learning?

Raspberry Pi

Denkt man darüber nach, dass Machine Learning mit gewaltigen Datenmengen arbeitet, so stellt man sich Computer mit gigantischer Rechenkraft vor, die sich durch die Daten wühlen, um in angemessener Zeit zu einem Ergebnis zu kommen. Gigantische Rechen-Power wiederum bedeutet üblicherweise teure Computer. Das muss aber nicht sein.

Um mit Machine Learning loszulegen, benötigt man erstaunlich wenig: Es genügt ein einfacher Rechner mit macOS, Windows oder Linux als Betriebssystem. Auch der günstige Klein-Computer Raspberry Pi beispielsweise eignet sich gut dafür, um mit dem maschinellen Lernen zu starten.

Wichtig ist, dass es ein Python ab der Version 3 auf dem Computer läuft. Darüber hinaus müssen für viele Anwendungsfälle zusätzliche Bibliotheken für Python installiert werden, damit der Umgang mit den für das maschinelle Lernen benötigten Daten einfacher wird. Dazu gehören beispielsweise die Erweiterungen scikit-learn, NumPy, SciPy, Pandas und matplotlib. Hat man diese Bibliotheken funktionsbereit eingespielt, sind die Voraussetzungen erfüllt. Insofern sind keine großen Investitionen notwendig, um erste Ergebnisse im Machine Learning zu erzielen und die Basis für große Rechnungen zu legen.

Zum endgültigen Machine-Learning-Glück fehlen dann schließlich nur noch Daten, auf deren Basis Muster erkannt und Schlussfolgerungen gezogen werden sollen.

Rechenleistung mieten: Der nächste Schritt

Sind die ersten Schritte getan und ist inzwischen das Verständnis für das maschinelle Lernen vorhanden, dann steigen die Anforderungen an die zu errechnenden Ergebnisse. Sinnvoll ist es, das eventuell vorhandene Kapital nicht in den Kauf von eigenen Maschinen zu investieren, sondern vorsichtiger zu agieren und zunächst Rechenleistung zu mieten, um zu prüfen, ob überhaupt die Annahmen, die man getroffen und im Kleinen bereits geprüft hat, auch im großen Rahmen funktionieren.

Rechenleistung lässt sich von verschiedenen Anbietern mieten. Die bekanntesten Anbieter sind sicherlich Amazon mit „Amazon Elastic Compute Cloud“ (Amazon EC2), Google mit „Google Compute Engine“ und Microsoft mit „Microsoft Azure“. Die Preise sind hier kaum zu nennen, denn es gibt nahezu unendlich viele Konfigurationsmöglichkeiten, die unterschiedliche Preise mitbringen. Festhalten lässt sich, dass bei den genannten Diensten lediglich die tatsächlich genutzte Rechenzeit abgerechnet wird und die beginnt im Cent-Bereich pro Stunde.