Google erweitert die Gemini-3-Familie um Gemini 3.1 Flash-Lite. Der Fokus liegt auf maximaler Geschwindigkeit und hoher Kosteneffizienz für Anwendungen mit sehr vielen Anfragen, bei denen Latenz und Budget wichtiger sind als „Deep Reasoning um jeden Preis“. Der Rollout startet zunächst als Preview für Entwickler in der Gemini API (Google AI Studio) sowie für Unternehmen über Vertex AI.
Was ist neu an Flash Lite?
1) Preis-Leistung für Skalierung
Laut Google ist 3.1 Flash-Lite das schnellste und kosteneffizienteste Modell innerhalb der Gemini-3-Serie. Es werden Kosten von 0,25 $ pro 1 Million Input-Tokens und 1,50 $ pro 1 Million Output-Tokens (Preview, Gemini API) genannt.
2) Mehr Tempo als der Vorgänger-„Workhorse“
Google vergleicht explizit mit Gemini 2.5 Flash und spricht von 2.5x schnellerem „Time to First Token“ sowie 45% höherer Output-Geschwindigkeit bei ähnlicher oder besserer Qualität.
3) „Thinking Levels“: Rechenaufwand nach Bedarf
Spannend für Produktivsysteme ist die Idee der konfigurierbaren Thinking Levels: Du kannst steuern, wie viel das Modell „nachdenkt“ - je nach Task eher minimal (max. Tempo) oder höher (mehr Sorgfalt). Google positioniert das als praktischen Hebel, um High-Frequency-Workloads sauber auszubalancieren.
Technische Eckdaten, die man kennen sollte
Gemini 3.1 Flash Lite ist nativ multimodal (Text, Bild, Audio, Video - plus PDF als Input in der Gemini-API) und verfügt über ein sehr großes Kontextfenster.
- Input-Limit: 1,048,576 Tokens (1M Kontext)
- Output-Limit: bis 65,536 Tokens
Dazu: In der API sind Features wie „Function Calling”, „Structured Output”, „Search Grounding” und „Code Execution” als unterstützt aufgeführt, „Image Generation” oder „Live API” dagegen nicht.
Wofür ist das Modell gedacht?
Google nennt vor allem hochvolumige, latenzkritische Standardaufgaben, bei denen es weniger um „kreative Meisterstücke“ als um zuverlässigen Durchsatz geht.
- Übersetzung (Chats, Reviews, Tickets in Masse)
- Klassifikation und Extraktion (Entities, Moderation, Routing, JSON-Output)
- Agentische Leichtgewichte (viele kleine Tool-Aufrufe, schnelle Schritte)
Aus Vertex-AI-Sicht ist die Ankündigung besonders interessant: Flash Lite soll eine deutlich bessere Qualität als frühere Lite-Modelle liefern und in zentralen Bereichen an Gemini 2.5 Flash heranreichen - inklusive Verbesserungen beim Instruction Following und Audio Input (z. B. ASR).
Einordnung: Wo liegt Flash-Lite im Gemini-Lineup?
Wenn man die Positionierung zusammennimmt, ergibt sich ein klares Bild:
- Gemini 2.5 Flash-Lite bleibt preislich extrem niedrig, ist aber eher „klein und schnell“.
- Gemini 3.1 Flash-Lite zielt darauf, mehr Qualitätsreserve (bis Richtung 2.5 Flash) zu liefern, ohne in die Kostenklasse großer Modelle zu rutschen.
In der Praxis ist das genau der Sweet Spot für Teams, die Tausende bis Millionen Requests pro Tag verarbeiten: Klassifizieren, Extrahieren, Übersetzen, Vorverarbeiten, Filtern - und nur die „harten Fälle” an größere Modelle weiterreichen.
Preview-Hinweis, den man ernst nehmen sollte
Zum Start läuft 3.1 Flash-Lite als Preview. Das heißt typischerweise: Modell kann sich noch ändern, Limits und Verhalten sind weniger „eingefroren“ als bei Stable-Releases. Außerdem nennt die Modellseite einen Knowledge Cutoff (Jan 2025) - für „Live-Fakten“ sollte man also mit Grounding/RAG arbeiten, statt auf Trainingswissen zu vertrauen
Hier ist noch ein Tipp, wie ihr Gemini günstiger bekommt.

