Der M4 Mac Mini als lokales LLM-Arbeitstier

Ein Monat mit einer leisen Box

Ich hatte versprochen, meine Erfahrungen zu dokumentieren — hier sind sie. Ich habe einen M4 Mac Mini in der Basiskonfiguration (512 GB interne SSD, 30 GB Unified Memory) mit einer externen 4-TB-SSD als Desktop und gleichzeitig als OpenAI-kompatiblen Inferenzserver betrieben. Vorweg: Er ist leise, sparsam und stark genug für den täglichen privaten KI-Betrieb.

Apple hat keine genauen GPU-Speicherlimits veröffentlicht. Der Activity Monitor zeigt etwa 22 GB als GPU-adressierbar an. Die tatsächlichen Werte können abweichen.

Warum lokale LLMs?

Drei Gründe, in der Reihenfolge ihrer Bedeutung:

  1. Datensouveränität und DSGVO — nichts verlässt das Gebäude. Keine Auftragsverarbeitungsverträge, keine Unterauftragsverarbeiter, keine Transfer-Folgenabschätzungen. Die Daten bleiben auf einer Maschine, die Ihnen gehört.
  2. Kostenplanbarkeit — keine nutzungsbasierte Abrechnung. Eine Hardware-Anschaffung, danach Strom. Bei 30 Watt Dauerbelastung sind das ungefähr die Kosten einer Schreibtischlampe.
  3. Air-Gap-Option — deaktivieren Sie den ausgehenden Netzwerkverkehr vollständig und Sie haben einen Inferenzserver, der keine Daten leaken kann, selbst wenn die Software es versucht.

Telemetrie-Hinweis: Ollama und LM Studio sammeln anonyme Nutzungsstatistiken, wenn Sie sie nicht explizit deaktivieren. Bei Ollama setzen Sie OLLAMA_DISABLE_TELEMETRY=1. Bei LM Studio gehen Sie in die Einstellungen und deaktivieren die Telemetrie. Wenn Sie das System aus Gründen der Datensouveränität betreiben, tun Sie das zuerst.

Boot-Optionen: internes vs. externes macOS

Ich habe macOS auf einer USB-4-4-TB-SSD installiert, um Konfigurationen per Hot-Swap zu wechseln — eine für Produktion, eine für Experimente.

  • Vorteile: sofortiges Rollback, isolierte Experimente, kein Risiko für die Produktionsumgebung
  • Nachteile: macOS-Updates können das externe Laufwerk blockieren, wenn Secure Boot auf Volle Sicherheit steht

Lösung: Neustart, Command-R gedrückt halten, Startsicherheitsdienstprogramm öffnen, Reduzierte Sicherheit einstellen und Booten von externen Medien erlauben. Internes Booten umgeht das Problem vollständig.

Die Toolchain

Ollama — schnelles CLI, gute Modellbibliothek. Setzen Sie OLLAMA_MODELS=/Volumes/LLMRepo um Modelle auf der externen SSD zu speichern und OLLAMA_HOST=0.0.0.0 um die API im LAN freizugeben. Achten Sie auf stille num_ctx-Abweichungen beim Ändern der Kontextgröße — selbst neu konfigurierte Modelle können die Einstellung ignorieren.

LM Studio — GUI plus OpenAI-kompatible API in einer Anwendung. Meine Wahl für Experimente und interaktive Nutzung. Um auf allen Netzwerkschnittstellen zu lauschen, editieren Sie ~/.cache/lm-studio/.internal/http-server-config.json und setzen "networkInterface": "0.0.0.0".

llama.cpp — geringster Overhead, am besten skriptfähig. Kompilieren mit make LLAMA_METAL=1 LLAMA_METAL_EMBED=1 für volle Metal-GPU-Beschleunigung.

Alle drei stellen eine OpenAI-kompatible API bereit. Jedes Tool, das einen OpenAI-Endpoint erwartet — CrewAI, LangChain, eigene Skripte — funktioniert ohne Anpassung.

Leistung: was tatsächlich läuft

Gemessen mit llama-bench auf dem Basis-M4, Batch-Größe 1, 4096 Kontext, Metal-Backend:

Modell Quantisierung VRAM Tokens/s Leistung
Mistral 7B Instruct Q4_K_M ~10 GB 54 28 W
Qwen 14B Chat Q5_K_S ~19 GB 25 29 W
Llama 3 24B Q4_K_M ~22 GB 12 30 W

Der ideale Bereich beim Basis-M4 liegt bei 7B- bis 14B-Modellen. Bei 7B bekommt man Gesprächsgeschwindigkeit. Bei 14B deutlich besseres Reasoning bei noch nutzbarem Durchsatz. Oberhalb von 24B fallen Kontextfenster oder Modellgewichte in den Host-RAM und die Reaktionsfähigkeit bricht spürbar ein.

Beim M4 Pro (36 GB oder 48 GB Konfigurationen) verschiebt sich die Obergrenze deutlich — 30B+-Modelle werden praktikabel, und die zusätzliche Speicherbandbreite macht bei längeren Kontexten einen echten Unterschied.

Systemeigenschaften

  • Leistungsaufnahme: 6 W im Leerlauf, 30 W Dauerlast
  • Lautstärke: unter 20 dB(A) — der Lüfter bleibt unter 2000 RPM. In der Praxis: lautlos
  • Grundfläche: 19 cm im Quadrat — passt unter einen Monitorständer
  • Kosten: unter 1500 EUR für die Basiskonfiguration mit externer SSD

Das ist weniger Leistungsaufnahme als die meisten Laptop-Netzteile. Er läuft rund um die Uhr, ohne dass jemand bemerkt, dass er da ist.

Wofür ich ihn tatsächlich nutze

  • Datenschutz-konforme Chat-Sitzungen — alles mit Kundendaten, Verträgen, internen Dokumenten
  • Virtueller Assistent „Kim" — ein agentenbasiertes System, das E-Mail und überwachte Ordner beobachtet, Antworten entwirft und Einträge zur Aufmerksamkeit markiert
  • Batch-Embedding für einen lokalen semantischen Suchindex über Projektdokumentation
  • Dokumentenkonvertierung und Wasserzeichen — automatisierte Pipeline, ausgelöst durch Dateiablage
  • RAG (Retrieval-Augmented Generation) — lokale Wissensbasis-Abfragen, ohne Dokumente an externe APIs zu senden

Clients anbinden: das Netzwerk-Minimum

Weisen Sie dem Mac Mini eine statische IP zu (z.B. 192.168.0.42). Auf Client-Rechnern fügen Sie 192.168.0.42 brainbox.local in /etc/hosts hinzu. Bonjour funktioniert im selben Subnetz, aber ein statisches Mapping überlebt VLANs und VPNs.

Jede OpenAI-kompatible Client-Konfiguration sieht so aus:

import os
os.environ["OPENAI_API_BASE"]   = "http://brainbox:1234/v1"
os.environ["OPENAI_MODEL_NAME"] = "openai/qwen2.5-coder-7b-instruct"
os.environ["OPENAI_API_KEY"]    = "lmstudio_placeholder"  # Dummy-Key

Ersetzen Sie brainbox durch die IP oder den Hostnamen Ihres Mac Mini.

Was es nicht ist

Das ist kein Ersatz für Cloud-KI, wenn Sie Frontier-Modell-Fähigkeiten brauchen. GPT-4-Klasse-Reasoning, 128K+-Kontextfenster oder multimodale Echtzeitverarbeitung brauchen größere Hardware oder Cloud-APIs.

Aber für die 80% der Aufgaben, die private Datenverarbeitung mit einem kompetenten Modell erfordern — Zusammenfassung, Klassifikation, Entwürfe, Code-Assistenz, Embedding — erledigt eine lautlose Box unter dem Schreibtisch das, ohne ein einziges Byte außer Haus zu senden.

Das Fazit

Der M4 Mac Mini in der Basiskonfiguration ist kein GPU-Monster. Aber für 7B- bis 14B-Modelle fühlt er sich an wie eine dedizierte Inferenz-Appliance — mit weniger Stromverbrauch als eine Schreibtischlampe, ohne Geräuschentwicklung, und Ihre Daten bleiben genau dort, wo sie hingehören. Wenn Ihre Daten das Haus nicht verlassen dürfen, oder Sie einfach keine Lust mehr haben, pro Token zu zahlen, hat diese Box einen Platz auf dem Schreibtisch verdient.


Dieser Artikel wurde ursprünglich im Dezember 2024 nach einem Monat täglicher Nutzung geschrieben. Die Toolchain und das Modell-Ökosystem entwickeln sich weiter — neuere Quantisierungsmethoden und Modelle haben die Möglichkeiten auf Apple Silicon seitdem erweitert, aber die grundlegende Architektur und der Workflow bleiben gleich.