Kapitel 01
Warum überhaupt lokal?
Jede Anfrage an ChatGPT oder die Claude API verlässt deinen Rechner. Bei Code, Verträgen, Patientendaten oder persönlichen Notizen hast du danach keine Kontrolle mehr. Ein lokaler Server mit einem lokalen Modell läuft auf deiner Hardware, ohne Internet — Datenschutz aus Architekturprinzip statt aus Vertrauen.
Kapitel 02
Cloud-AI hat noch andere Kosten
Pro-Token-Abrechnung skaliert linear mit deinem Workload. Rate-Limits bremsen Experimente. Das Modell wird still im Hintergrund geupdatet, dein Prompt von gestern liefert heute andere Outputs. Vendor-Lock-in macht Migration teuer. Lokal: einmalige Hardware-Kosten, danach unlimitierte Inferenz mit reproduzierbarem Verhalten.
Kapitel 03
Was steckt physisch drin?
Ein lokaler KI-Server ist im Kern: schneller RAM (16 GB für kleine Modelle, 64 GB+ für die guten), eine GPU mit viel VRAM oder ein Apple Silicon Mac mit Unified-Memory, ein NVMe-SSD damit die mehrere Gigabyte großen Modell-Files in Sekunden laden. Kein Spezial-Hardware — du hast wahrscheinlich schon genug.
Kapitel 04
Die Software-Schichten
Fünf Layer, jeder ersetzbar:
- OS — macOS, Linux, Windows
- Runtime — Ollama, llama.cpp, vLLM, LM Studio
- Modell-Datei — .gguf oder .safetensors
- HTTP-API — meist OpenAI-kompatibel auf localhost
- Client — Browser-UI, Editor-Plugin, eigene App
Kapitel 05
Hardware passend wählen
Faustregel: das quantisierte Modell muss in den RAM bzw. VRAM passen.
- 7B Q4 → ≈ 4–5 GB · läuft auf jedem modernen Laptop
- 13B Q4 → ≈ 8–10 GB · M2/M3 Mac mit 32 GB oder RTX 4090
- 70B Q4 → ≈ 40 GB · Mac Studio M-Ultra oder Multi-GPU
CPU-only funktioniert, ist aber 5–10× langsamer als GPU/Apple Silicon.
Kapitel 06
Runtime installieren
Einfachster Einstieg auf jedem OS: Ollama. Eine Zeile.
# macOS / Linux curl -fsSL https://ollama.com/install.sh | sh # Windows: ollama.com/download → Installer
Alternativen: LM Studio mit GUI, llama.cpp low-level für Maximum-Kontrolle, vLLM für High-Throughput-Servers.
Kapitel 07
Modell aussuchen und laden
ollama pull llama3.2:3b # klein, schnell, Edge ollama pull qwen2.5-coder:7b # Code-spezialisiert ollama pull deepseek-r1:14b # Reasoning
Quantisierung schrumpft Modelle ohne dramatischen Qualitätsverlust — Q4_K_M ist der Sweet-Spot. Mehrere parallel laden, vergleichen, wechseln wie Schuhe.
Kapitel 08
Verbinden und loslegen
Du hast jetzt einen OpenAI-kompatiblen Server auf http://localhost:11434.
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"messages": [{"role": "user", "content": "hi"}]
}'Continue.dev für VSCode, Open-WebUI im Browser, eigene App via SDK — das gleiche Setup, viele Frontends. Du hast jetzt deine eigene KI.