Google Landmarks: Riesiges Datenmaterial zur Bilderkennung für Machine Learning

Sehenswürdigkeiten

Als Machine-Learning-Enthusiasten sind wir quasi immer auf der Suche nach Datenmaterial, das wir in unseren Experimenten der maschinellen Bilderkennung verwenden können. Mit Google Landmarks haben wir über vier Millionen Bilder zu Sehenswürdigkeiten weltweit zur Verfügung, die uns hilfreiche Erkenntnisse liefern können.

Bereits 2018 hat Google das Landmarks-Projekt in seiner ersten Variante der Öffentlichkeit vorgestellt. Das primäre Ziel gilt der Verfeinerung der bilderkennenden Verfahren. Waren vor wenigen Jahren noch staunende Gesichter zu beobachten, wenn Algorithmen einen Hund von einem Auto unterscheiden konnten, so rümpfen wir inzwischen fast abfällig die Nase, wenn uns derlei Ergebnisse bei der Bilderkennung präsentiert werden.

Fotoinhalte erkennen und wiederfinden

Bei Landmarks geht es den Ingenieurinnen und Ingenieuren bei Google nicht irgendeine Sehenswürdigkeit zu erkennen, sondern darum ein bestimmtes Wahrzeichen zuverlässig immer wieder auszumachen. So sollen beispielsweise die Niagara-Fälle in Nordamerika sicher benannt und nicht nur automatisch erkannt werden, dass im vorliegenden Bild mit großer Wahrscheinlichkeit ein Wasserfall zu sehen ist.

Darüber hinaus spielt auch das Wiederfinden bestimmter Bilder eine große Rolle. Schließlich hat inzwischen die Zahl der geschossenen Fotos absurde Dimensionen erreicht, schon 2017 wurden insgesamt etwa 1,2 Billionen Fotos gemacht, diese Zahl dürfte seitdem weiter angestiegen sein. Somit stellt das Wiederfinden einmal gemachter Fotos anhand ihres Inhalts ein echtes Problem dar. Habe ich eine große, schlecht sortierte Bildsammlung, werde ich viel zu viel Zeit benötigen, um das eine gesuchte Motiv wiederzufinden, von dem ich weiß, das ich es irgendwann eingefangen habe. Hier mit automatischen Verfahren zu helfen, ist eine echte Erleichterung. Derlei Hilfen sind in Ansätzen bereits jetzt in Apples Fotos und in Googles Pictures verfügbar.

Das Datenmaterial

Das Gute an den Sehenswürdigkeiten ist, dass sie stabil sind. Es handelt sich zumeist um große Wahrzeichen, die sich kaum verändern und oftmals auch geschützt und gepflegt werden. Die Schwierigkeiten bei der Bilderkennung liegen daher eher in unterschiedlichen Bedingungen, unter denen die Fotos gemacht wurden: Licht, Wetter, Kameraqualität, Perspektive, … 

Die über vier Millionen Bilder lassen sich über GitHub beziehen. Dort liegen ein Skript und eine Anleitung bereit. Die Metadaten mit Auszeichnungen lassen sich als CSV laden. Die Bilddaten selbst bestehen aus rund 500 TAR-Dateien, die jeweils rund ein Gigabyte groß sind. Darüber hinaus gibt es Index- und Test-Daten, die man sich ebenfalls laden kann.

Man braucht also Platz, um mit dem Material arbeiten zu können.