Der Druck steigt. Und die Anforderungen auch
Für den Mittelstand ist KI längst kein Pilotthema mehr. Sie verantworten den produktiven Einsatz von KI-Systemen in Kernprozessen: Dokumentenverarbeitung, Vertragsanalyse, Kundenkorrespondenz, agentische Workflows. Die Frage lautet nicht mehr, ob KI eingesetzt wird, sondern wie und unter welchen Bedingungen. Gerade in regulierten Branchen, beim Mittelstand mit sensiblen Kundendaten oder in Unternehmen mit strengen Datenschutzrichtlinien ist die Antwort klar. Die Daten bleiben im Haus. Lokale KI-Modelle sind dafür die einzige belastbare Option.
Doch bis vor Kurzem blieb diese Option mit spürbaren Einschränkungen behaftet. Lokale Modelle konnten keine Bilder verarbeiten, kämpften mit begrenzten Kontextfenstern und lieferten bei komplexen agentischen Aufgaben, also dem eigenständigen Ausführen von Werkzeugaufrufen und mehrstufigen Prozessen, häufig unzuverlässige Ergebnisse. Das war der Stand bis März 2026.
Gemma 4: Drei Schwachstellen lokaler KI beseitigt
Im Praxistest auf der NVIDIA DGX Spark, einem KI-Kompaktrechner mit 128 GB Unified Memory, übertrifft Gemma 4 26B A4B IT den bisherigen lokalen Favoriten gpt-oss-120b in allen relevanten Disziplinen. Drei Schwachstellen, die lokale KI bislang für den produktiven Unternehmenseinsatz limitiert haben, werden direkt adressiert.
Erstens die Bildverarbeitung: gpt-oss-120b war ein reines Textmodell. Dokumente mit eingescannten Seiten, Fotos oder handschriftlichen Notizen mussten vor der KI-Verarbeitung aufwendig vorverarbeitet werden. Gemma 4 verarbeitet Bilder und Video nativ, mit variabler Auflösung und unterschiedlichen Seitenverhältnissen – und erkennt im Test auch Handschrift zuverlässig. Für Unternehmen, die täglich gescannte Eingangspost, Lieferscheine oder handschriftliche Protokolle verarbeiten, ist das ein Qualitätssprung, der sich unmittelbar in der Prozesskette niederschlägt.
Zweitens das Kontextfenster: Mit 256.000 Tokens verarbeitet Gemma 4 doppelt so viel Text in einem einzigen Prompt wie gpt-oss-120b mit seinen 128.000 Tokens (Quelle: Google AI for Developers). Umfangreiche Vertragswerke, lange E-Mail-Verläufe oder ganze Code-Repositories lassen sich so ohne Informationsverlust durch Kontextgrenzen analysieren. Wer einmal erlebt hat, wie ein Modell den Anfang eines langen Dokuments „vergisst", weiß, was dieser Unterschied in der Praxis bedeutet.
Drittens das Function-Calling: Agentische KI, also KI, die eigenständig Werkzeuge aufruft, Daten abfragt und mehrstufige Aufgaben ausführt, setzt zuverlässiges natives Function-Calling voraus. Bei gpt-oss-120b war genau das ein Schmerzpunkt: Tool-Calls wurden zwar angekündigt, aber nicht tatsächlich ausgeführt. Erst mit einem speziell angepassten Docker-Image und manuell konfigurierten vLLM-Parametern funktionierte es. Gemma 4 bringt natives Function-Calling und strukturierten JSON-Output direkt mit – kein Workaround, keine Sonderkonfiguration.
Effizienz durch Architektur: Was MoE für den IT-Betrieb bedeutet
Die Mixture-of-Experts-Architektur von Gemma 4 ist kein Marketing-Label, sondern hat direkte Konsequenzen für den Betrieb. Bei einem klassischen Dense-Modell wie gpt-oss-120b werden bei jeder Anfrage alle 120 Milliarden Parameter aktiviert – mit entsprechendem Ressourcenbedarf. Gemma 4 routet jede Anfrage intelligent zu spezialisierten Teilmodulen: Von 26 Milliarden Gesamtparametern werden pro Token nur 3,8 Milliarden aktiviert (Quelle: Google AI for Developers). Das bedeutet schnellere Inferenz bei geringerem Rechenaufwand – bei gleichzeitig höherer Ergebnisqualität in den Benchmarks.
Auf der NVIDIA DGX Spark mit ihren 128 GB Unified Memory läuft Gemma 4 komfortabel mit vollem Kontextfenster, während bei gpt-oss-120b der Speicher deutlich knapper bemessen war. Der Speicherbedarf liegt je nach Quantisierungsstufe zwischen ca. 15,6 GB bei 4-Bit-Quantisierung und ca. 48 GB in voller BF16-Präzision (Quelle: Google AI for Developers). Für IT-Leiter, die Hardware-Entscheidungen treffen, ist das eine relevante Planungsgröße.
In den offiziellen Benchmarks von Google DeepMind erreicht das Modell 82,6 % beim MMMLU-Benchmark für mehrsprachiges Wissen, 77,1 % beim LiveCodeBench v6 für Coding-Aufgaben und 85,5 % beim τ2-bench für agentischen Tool-Einsatz (Quelle: Google DeepMind, April 2026). Auf dem Arena AI Text-Leaderboard belegt Gemma 4 26B A4B IT aktuell Platz 6 unter allen Open-Weight-Modellen weltweit – und konkurriert dabei mit Modellen, die das Zwanzigfache seiner Parameterzahl aufweisen (Quelle: Google Blog, April 2026).
Integration ohne Reibungsverlust
Die technische Leistungsfähigkeit eines Modells ist die eine Seite. Die andere ist die Frage, wie viel Integrationsaufwand Unternehmen tatsächlich leisten müssen. Gemma 4 26B A4B IT wird über einen Inference-Server wie vLLM bereitgestellt, der eine OpenAI-kompatible API exponiert. In der KI-Plattform ALBERT | AI von agorum core wird lediglich die URL dieses Servers hinterlegt – fertig. Im Praxistest funktionierte die Anbindung auf Anhieb, ohne zusätzliche Konfigurationen oder Workarounds. Das ist ein direkter Gegensatz zur Einrichtung von gpt-oss-120b, bei der ein spezielles Docker-Image gebaut, tiktoken-Encodings manuell heruntergeladen und spezifische Parameter gesetzt werden mussten.
Dieser Aspekt ist für CIOs und IT-Leiter nicht trivial: Jede Stunde Integrationsaufwand ist eine Stunde, die nicht in produktive Nutzung fließt. Ein Modell, das direkt funktioniert, ist kein Komfort, sondern ein Kostenfaktor.
Fazit: Lokale KI hat den Rückstand aufgeholt
Die Frage war lange, wann lokale KI-Modelle den cloudbasierten Alternativen ebenbürtig werden. Mit Gemma 4 26B A4B IT ist diese Frage für viele Unternehmensanforderungen beantwortet. Bildverarbeitung, tiefes Kontextverständnis, zuverlässiges Function-Calling und eine Apache-2.0-Lizenz ohne kommerzielle Einschränkungen. Das ist kein Versprechen, sondern ein getestetes Ergebnis. Für CEOs und CIOs, die Datensouveränität nicht als regulatorische Pflicht, sondern als strategischen Wettbewerbsvorteil verstehen, ist jetzt der richtige Zeitpunkt, lokale KI ernsthaft in die Unternehmensarchitektur zu integrieren. Wer weiter wartet, wartet nicht auf bessere Modelle. Die kommen ohnehin. Er wartet auf den Moment, in dem der Wettbewerb bereits vorne liegt.
Oliver Schulze ist Autor bei agorum Software GmbH, Ostfildern. Er begleitet den praktischen Einsatz von KI-Technologien in Unternehmensumgebungen und veröffentlicht regelmäßig Erfahrungsberichte auf dem agorum-Blog.
Die agorum® Software GmbH entwickelt mit ALBERT | AI eine hochmoderne KI-Plattform, die Unternehmen befähigt, Informationen intelligent zu erschließen, Prozesse umfassend zu automatisieren und Arbeitsabläufe effizienter zu gestalten, unabhängig vom eingesetzten System. ALBERT | AI integriert sich nahtlos in bestehende IT-Umgebungen und hebt Dokumentenmanagement, Content-Organisation und Routineaufgaben auf das nächste Level. So werden Daten verstanden, Prozesse aktiv gesteuert und neue Effizienzpotenziale erschlossen, ganz ohne Bindung an einzelne Produkte.
agorum® Software GmbH
Vogelsangstraße 22
73760 Ostfildern
Telefon: +49 711 358 718-0
Telefax: +49 711 346 1063
https://www.agorum.com
Leitung Marketing
Telefon: +49711358718-40
E-Mail: daniela.lutz@agorum.com
![]()