Ollama 0.31.1: Sprachmodelle auf Macs 90% schneller
03.07.2026 - 21:56:30 | boerse-global.de
Die jüngsten Updates katapultieren den Apple-Chip endgültig in die erste Liga der KI-Plattformen.
Ollama 0.31.1: Turbo für Gemma-Modelle
Anfang Juli veröffentlichten die Entwickler Ollama 0.31.1 – ein Update, das speziell Apple-Nutzer freuen dürfte. Die neue Version setzt auf Multi-Token-Prediction (MTP) und beschleunigt damit die Texterzeugung bei Gemma-4-Modellen um rund 90 Prozent. Ein automatisches Tuning-System für Draft-Tokens läuft standardmäßig mit, ebenso wie ein aktualisierter MLX-Engine mit optimiertem Matmul-Kernel für kleine Batch-Größen.
Die Optimierungen zahlen sich aus: Auf einem MacBook Air M5 mit 16 GB RAM haben sich die Inferenzgeschwindigkeiten Berichten zufolge verdoppelt. Möglich macht das unter anderem die neue NVFP4-Quantisierung, die Qualitätseinbußen im Vergleich zu herkömmlichen 4-Bit-Verfahren nahezu halbiert. Entwickler profitieren zudem von einem integrierten Snapshot-System, das komplexe Agenten-Workflows beschleunigt.
Speicher als Nadelöhr: Welcher Mac für welches Modell?
Die Hardware bleibt der entscheidende Faktor. Ein MacBook Air M2 mit 8 GB RAM kommt mit kleinen 3-Milliarden-Parametermodellen wie Phi-3 Mini noch klar. Bei 7-Milliarden-Modellen beginnt jedoch das lästige Memory Swapping – die Leistung bricht ein.
16 GB Arbeitsspeicher gelten inzwischen als Mindestvoraussetzung für Modelle mit 7 Milliarden Parametern. Hier erreichen Nutzer solide 15 bis 25 Tokens pro Sekunde. Wer mehr will, muss tiefer in die Tasche greifen:
- 24 GB MacBook Air: Bewältigt Modelle mit 13 bis 14 Milliarden Parametern
- gpt-oss 20B auf 24 GB: rund 5 Tokens pro Sekunde
- M5 Pro mit 128 GB RAM: beeindruckende 79 Tokens pro Sekunde
- Mac Studio M3 Ultra (128–192 GB): 25 bis 30 Tokens pro Sekunde bei 70-Milliarden-Modellen in 4-Bit-Quantisierung
Gigantische Modelle: 744 Milliarden Parameter lokal?
Sie möchten Ollama 0.31.1 auf Ihrem Mac nutzen und die 90% schnellere Inferenz selbst erleben? In diesem kostenlosen Guide zeigen wir Ihnen in drei Schritten, wie Sie das Update installieren, MTP aktivieren und Ihren Speicher optimal konfigurieren – für Modelle von 3 bis 70 Milliarden Parametern. Jetzt kostenlosen Setup-Guide anfordern
Die lokale KI-Welt stellt sich auf immer größere Modelle ein. GLM-5.2 wechselte am 16. Juni 2026 zu offenen Gewichten und bringt es auf 744 Milliarden Gesamtparameter – davon 40 Milliarden aktive. Das Mixture-of-Experts-Modell (MoE) nutzt DeepSeek Sparse Attention und IndexShare-Technologie, die den Rechenaufwand pro Token bei einer Kontextlänge von einer Million Tokens nahezu verdreifachen soll.
Noch einen drauf setzt Kimi K2.7 Code: Das 1-Billionen-Parameter-Modell benötigt selbst in der kleinsten 2-Bit-Quantisierung rund 339 GB Speicher. Zwar ist der Betrieb auf High-End-Maschinen mit llama.cpp technisch möglich, doch Experten raten für die meisten Nutzer zur API-Lösung.
Exportkontrollen gelockert: Claude Fable 5 zurück
Am 2. Juli 2026 setzte Anthropic nach der Lockerung bestimmter Exportbeschränkungen Claude Fable 5 für US-Organisationen wieder frei. Das Modell ist zusammen mit Mythos 5 bis zum 7. Juli 2026 für ausgewählte Professional- und Enterprise-Pläne verfügbar und läuft über die Claude-Desktop-App auch auf Apple Silicon.
Tools für den Alltag: Lokale KI ohne Kommandozeile
Die Einstiegshürde sinkt: KathaGPT startete kürzlich als Open-Source-Tool für macOS, Windows und Linux. Nutzer laden Llama, Mistral oder Qwen herunter und starten durch – ganz ohne API-Keys oder komplizierte Einrichtung. Auch das Jan 2026 Update der Jan.ai-Plattform bringt eine NeuralFlow-Engine mit dynamischer Speicherkompression, die inaktive Schichten nahezu verlustfrei ins RAM auslagert.
Für Entwickler wird die Integration lokaler Modelle in bestehende Workflows immer einfacher. LangChain orchestriert Ollama-basierte Pipelines für Aufgaben wie lokale Datenextraktion oder Code-Reviews. Besonders gefragt sind diese lokalen Setups bei sensiblen medizinischen, finanziellen oder juristischen Dokumenten: Persönliche Daten lassen sich entfernen, bevor etwas die lokale Maschine verlässt.
Unabhängig vom gewählten Werkzeug gilt: Maximale GPU-Auslastung und angepasste Kontextlängen – 8K für Chat, 32K für Dokumentenanalyse – sind der Schlüssel zu stabiler Leistung auf Consumer-Hardware.
