Von Bard zu Gemini: Die Evolution von Googles KI-Sprachmodellen

Gemini_1.5

Im digitalen Zeitalter, in dem künstliche Intelligenz (KI) immer mehr an Bedeutung gewinnt, hat Google mit „Gemini“ ein neues Kapitel aufgeschlagen. Als Nachfolger des ursprünglich als „Bard“ bekannten Projekts, stellt Gemini Googles ambitionierten Vorstoß in die nächste Generation von KI-Sprachmodellen dar. Gucken wir uns einmal an, was Google erneuert hat.

Der Name „Gemini“ spiegelt nicht nur die Vielseitigkeit und Dualität des Modells wider, sondern markiert auch einen klaren Schnitt in der Evolution von Googles KI-Entwicklungen. Die Umbenennung Mitte Februar 2024 unterstreicht Googles Bestreben, ein prägnanteres und international verständliches Branding zu etablieren und sich von anderen Modellen wie ChatGPT und LaMDA abzugrenzen. „Gemini“ symbolisiert die Fortschritte und das Potenzial, das Google in der KI-Technologie sieht, und dient als Leuchtturmprojekt für zukünftige Innovationen. Zumindest sieht das Google so.

Verbesserungen zum Vorgänger

Ein entscheidender Faktor, der Gemini von seinen Vorgängern und anderen KI-Modellen abhebt, ist die erhebliche Erweiterung des Kontextfensters in der Version 1.5 Pro. Ein KI-Modell verarbeitet Informationen in „Token“, die Grundbausteine wie Wortteile, Bilder, Videos, Audiodaten oder Code darstellen. Je größer das Kontextfenster eines Modells, desto mehr Informationen kann es auf einmal aufnehmen und verarbeiten, was die Konsistenz, Relevanz und Nützlichkeit seiner Ausgaben verbessert. Durch bahnbrechende Innovationen im maschinellen Lernen hat Google die Kapazität des Kontextfensters von Gemini 1.5 Pro im Vergleich zur ursprünglichen Grenze von 32.000 Token für Gemini 1.0 dramatisch gesteigert. In der Produktion kann Gemini 1.5 Pro jetzt bis zu 1 Million Token verarbeiten, was es ermöglicht, enorme Informationsmengen in einem Durchgang zu bearbeiten. Dazu gehören eine Stunde Videomaterial, elf Stunden Audio, Codebasen mit über 30.000 Zeilen oder mehr als 700.000 Wörter. In der Forschung wurden sogar erfolgreich Tests mit bis zu 10 Millionen Token durchgeführt, was die außergewöhnliche Fähigkeit von Gemini 1.5 Pro unterstreicht, mit großen und komplexen Datensätzen umzugehen und diese effizient zu analysieren. Diese Erweiterung des Kontextfensters verspricht eine neue Ära der Informationsverarbeitung und macht Gemini zu einem noch leistungsfähigeren Werkzeug in einer Vielzahl von Anwendungsbereichen.

Anwendungsgebiete

Gemini basiert auf der fortschrittlichen Transformer-Architektur und wurde mit einer enormen Menge an Daten aus Text, Code und Bildern trainiert, was es zu einem der leistungsfähigsten Sprachmodelle weltweit macht. Es verfügt über beeindruckende Fähigkeiten in Multimodalität, Generativität und Dialogführung und kann eine Vielzahl von Aufgaben bewältigen – von der Textgenerierung über Übersetzungen bis hin zur Codeerstellung und der Zusammenfassung von Texten. Die Einsatzmöglichkeiten von Gemini sind breit gefächert und reichen von der Erstellung von Inhalten über die Automatisierung von Aufgaben bis hin zur Beantwortung komplexer Fragen.

Gemini-Varianten
Gemini-Varianten

Varianten

Doch Gemini ist nicht nur ein einzelnes Modell, sondern eine ganze Familie von Varianten, die jeweils auf spezifische Anforderungen zugeschnitten sind. Von der Basisversion Gemini 1.0 über die erweiterte Gemini 1.5 bis hin zur professionellen Ausgabe Gemini 1.5 Pro und der experimentellen Gemini 1.0 Ultra bietet Google eine Palette an Optionen für verschiedene Anwendungsgebiete. Während Gemini 1.0 und 1.5 auch für private Nutzer zugänglich sind, richtet sich die Pro-Version an Unternehmen und Organisationen, die für den Zugang eine Lizenz erwerben müssen. Die Kosten hierfür variieren je nach Nutzungsart, Nutzeranzahl, benötigter Rechenleistung und Speicherplatz.

Vergleich zu ChatGPT

Im Vergleich zu anderen Modellen wie ChatGPT sticht Gemini durch seine technische Überlegenheit hervor. Die Kombination aus einer Transformer-basierten Architektur mit mehreren Decodern, einem größeren Trainingsdatensatz und der Nutzung von Googles TPU-Infrastruktur macht Gemini leistungsfähiger und effizienter. Die kontinuierliche Verbesserung und Anpassung an neue Daten ohne festen Cutoff-Termin ermöglichen es Gemini, aktuelle Themen und Trends zu verstehen und darauf zu reagieren. Auf der anderen Seite wirkt Gemini viel technischer als GhatGPT. Stehen Zugänglichkeit und Kundenfreundlichkeit im Fokus, so hat GhatGPT die Nase vorn.

Gemini-WK2-Soldaten
Gemini-WK2-Soldaten

Bildgenerierung fehlerhaft

In einer jüngsten Entwicklung hat Google entschieden, die Fähigkeit seines KI-Modells Gemini, Bilder von Menschen zu generieren, vorübergehend auszusetzen. Diese Maßnahme erfolgt als direkte Reaktion auf die wachsende Kritik in den sozialen Netzwerken, die sich gegen ungenaue historische Abbildungen richtete, welche durch den Chatbot erzeugt wurden. Einige der kontroversen Bilder umfassten Darstellungen der Gründerväter der USA sowie deutscher Soldaten aus dem Zweiten Weltkrieg, die unerwartet Frauen und Personen unterschiedlicher ethnischer Herkunft zeigten. Obwohl KI-Modelle wie Gemini darauf trainiert sind, sensibel auf Diversität zu achten und nicht auf problematische oder radikale Prompts zu reagieren, führte diese Praxis zu unvorhergesehenen Herausforderungen. Nutzer kritisierten Google für den Versuch, generative Stereotypen in Bezug auf Geschlecht und Rasse zu vermeiden, und warfen dem Unternehmen vor, dabei neue Fehler zu machen. Google hat bereits eine Entschuldigung für diese „Ungenauigkeiten in einigen historischen Darstellungen“ ausgesprochen und arbeitet laut einer Stellungnahme auf der Plattform X an einer verbesserten Version des Chatbots, um solche Probleme in Zukunft zu vermeiden.

Gemini-Bildgenerierung-gestoppt
Gemini-Bildgenerierung-gestoppt

Was steht an?

Die Zukunft sieht für Gemini vielversprechend aus, da Google kontinuierlich an der Verbesserung und Erweiterung des Modells arbeitet. Die Vision ist, die Art und Weise, wie wir mit Computern interagieren, grundlegend zu verändern und eine noch leistungsfähigere, zugänglichere und zuverlässigere KI zu schaffen. Trotz der Herausforderungen in Bezug auf Zugänglichkeit, Kosten und Verständlichkeit der Entscheidungsfindung von KI-Systemen, setzt Gemini neue Maßstäbe in der Welt der künstlichen Intelligenz. Mit der Bildgenerierung haben sie bei Google allerdings deutlich übers Ziel hinausgeschossen.