{"id":11464,"date":"2026-03-04T13:24:11","date_gmt":"2026-03-04T12:24:11","guid":{"rendered":"https:\/\/www.felix-bauer-it.de\/blog\/?p=11464"},"modified":"2026-03-04T13:29:02","modified_gmt":"2026-03-04T12:29:02","slug":"gemini-3-1-flash-lite-geht-an-den-start","status":"publish","type":"post","link":"https:\/\/www.felix-bauer-it.de\/blog\/gemini-3-1-flash-lite-geht-an-den-start\/","title":{"rendered":"Gemini 3.1 Flash-Lite geht an den Start"},"content":{"rendered":"<p>Google erweitert die Gemini-3-Familie um Gemini 3.1 Flash-Lite. Der Fokus liegt auf maximaler Geschwindigkeit und hoher Kosteneffizienz f\u00fcr Anwendungen mit sehr vielen Anfragen, bei denen Latenz und Budget wichtiger sind als \u201eDeep Reasoning um jeden Preis\u201c. Der Rollout startet zun\u00e4chst als Preview f\u00fcr Entwickler in der Gemini API (Google AI Studio) sowie f\u00fcr Unternehmen \u00fcber Vertex AI.<\/p>\n\n\n\n<!--more-->\n\n\n\n<h3 class=\"wp-block-heading\">Was ist neu an Flash Lite?<\/h3>\n\n\n\n<p><strong>1) Preis-Leistung f\u00fcr Skalierung<\/strong> <br>Laut Google ist 3.1 Flash-Lite das schnellste und kosteneffizienteste Modell innerhalb der Gemini-3-Serie. Es werden Kosten von 0,25 $ pro 1 Million Input-Tokens und 1,50 $ pro 1 Million Output-Tokens (Preview, Gemini API) genannt.<\/p>\n\n\n\n<p><strong>2) Mehr Tempo als der Vorg\u00e4nger-\u201eWorkhorse\u201c<\/strong><br>Google vergleicht explizit mit Gemini 2.5 Flash und spricht von <strong>2.5x schnellerem \u201eTime to First Token\u201c<\/strong> sowie <strong>45% h\u00f6herer Output-Geschwindigkeit<\/strong> bei \u00e4hnlicher oder besserer Qualit\u00e4t.<\/p>\n\n\n\n<p><strong>3) \u201eThinking Levels\u201c: Rechenaufwand nach Bedarf<\/strong><br>Spannend f\u00fcr Produktivsysteme ist die Idee der <strong>konfigurierbaren Thinking Levels<\/strong>: Du kannst steuern, wie viel das Modell \u201enachdenkt\u201c - je nach Task eher minimal (max. Tempo) oder h\u00f6her (mehr Sorgfalt). Google positioniert das als praktischen Hebel, um <strong>High-Frequency-Workloads<\/strong> sauber auszubalancieren.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Technische Eckdaten, die man kennen sollte<\/h3>\n\n\n\n<p>Gemini 3.1 Flash Lite ist nativ multimodal (Text, Bild, Audio, Video - plus PDF als Input in der Gemini-API) und verf\u00fcgt \u00fcber ein sehr gro\u00dfes Kontextfenster.<\/p>\n\n\n\n<ul>\n<li><strong>Input-Limit:<\/strong> 1,048,576 Tokens (1M Kontext)<\/li>\n\n\n\n<li><strong>Output-Limit:<\/strong> bis 65,536 Tokens<br><\/li>\n<\/ul>\n\n\n\n<p>Dazu: In der API sind Features wie \u201eFunction Calling\u201d, \u201eStructured Output\u201d, \u201eSearch Grounding\u201d und \u201eCode Execution\u201d als unterst\u00fctzt aufgef\u00fchrt, \u201eImage Generation\u201d oder \u201eLive API\u201d dagegen nicht.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Wof\u00fcr ist das Modell gedacht?<\/h3>\n\n\n\n<p>Google nennt vor allem <strong>hochvolumige, latenzkritische Standardaufgaben<\/strong>, bei denen es weniger um \u201ekreative Meisterst\u00fccke\u201c als um zuverl\u00e4ssigen Durchsatz geht.<\/p>\n\n\n\n<ul>\n<li><strong>\u00dcbersetzung<\/strong> (Chats, Reviews, Tickets in Masse)<\/li>\n\n\n\n<li><strong>Klassifikation und Extraktion<\/strong> (Entities, Moderation, Routing, JSON-Output)<\/li>\n\n\n\n<li><strong>Agentische Leichtgewichte<\/strong> (viele kleine Tool-Aufrufe, schnelle Schritte)<br><\/li>\n<\/ul>\n\n\n\n<p>Aus Vertex-AI-Sicht ist die Ank\u00fcndigung besonders interessant: Flash Lite soll eine <strong>deutlich bessere Qualit\u00e4t<\/strong> als fr\u00fchere Lite-Modelle liefern und in zentralen Bereichen an Gemini 2.5 Flash heranreichen - inklusive Verbesserungen beim Instruction Following und Audio Input (z. B. ASR).<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Einordnung: Wo liegt Flash-Lite im Gemini-Lineup?<\/h3>\n\n\n\n<p>Wenn man die Positionierung zusammennimmt, ergibt sich ein klares Bild:<\/p>\n\n\n\n<ul>\n<li><strong>Gemini 2.5 Flash-Lite<\/strong> bleibt preislich extrem niedrig, ist aber eher \u201eklein und schnell\u201c.<\/li>\n\n\n\n<li><strong>Gemini 3.1 Flash-Lite<\/strong> zielt darauf, <strong>mehr Qualit\u00e4tsreserve<\/strong> (bis Richtung 2.5 Flash) zu liefern, ohne in die Kostenklasse gro\u00dfer Modelle zu rutschen.<\/li>\n<\/ul>\n\n\n\n<p>In der Praxis ist das genau der Sweet Spot f\u00fcr Teams, die Tausende bis Millionen Requests pro Tag verarbeiten: Klassifizieren, Extrahieren, \u00dcbersetzen, Vorverarbeiten, Filtern - und nur die \u201eharten F\u00e4lle\u201d an gr\u00f6\u00dfere Modelle weiterreichen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Preview-Hinweis, den man ernst nehmen sollte<\/h3>\n\n\n\n<p>Zum Start l\u00e4uft 3.1 Flash-Lite als <strong>Preview<\/strong>. Das hei\u00dft typischerweise: Modell kann sich noch \u00e4ndern, Limits und Verhalten sind weniger \u201eeingefroren\u201c als bei Stable-Releases. Au\u00dferdem nennt die Modellseite einen <strong>Knowledge Cutoff (Jan 2025)<\/strong> - f\u00fcr \u201eLive-Fakten\u201c sollte man also mit Grounding\/RAG arbeiten, statt auf Trainingswissen zu vertrauen<\/p>\n\n\n\n<p>Hier ist noch ein Tipp, wie ihr <a href=\"https:\/\/www.felix-bauer-it.de\/blog\/gemini-google-ai-pro-guenstiger\/\" data-type=\"post\" data-id=\"10509\">Gemini g\u00fcnstiger bekommt<\/a>.<\/p>","protected":false},"excerpt":{"rendered":"<p>Google erweitert die Gemini-3-Familie um Gemini 3.1 Flash-Lite. Der Fokus liegt auf maximaler Geschwindigkeit und hoher Kosteneffizienz f\u00fcr Anwendungen mit sehr vielen Anfragen, bei denen Latenz und Budget wichtiger sind als \u201eDeep Reasoning um jeden Preis\u201c. Der Rollout startet zun\u00e4chst als Preview f\u00fcr Entwickler in der Gemini API (Google AI Studio) sowie f\u00fcr Unternehmen \u00fcber...<\/p>\n","protected":false},"author":1,"featured_media":11468,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[6],"tags":[],"_links":{"self":[{"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/posts\/11464"}],"collection":[{"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/comments?post=11464"}],"version-history":[{"count":4,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/posts\/11464\/revisions"}],"predecessor-version":[{"id":11469,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/posts\/11464\/revisions\/11469"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/media\/11468"}],"wp:attachment":[{"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/media?parent=11464"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/categories?post=11464"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/www.felix-bauer-it.de\/blog\/wp-json\/wp\/v2\/tags?post=11464"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}