Anatomy — Wisp

Kapitel 01

Warum überhaupt lokal?

Jede Anfrage an ChatGPT oder die Claude API verlässt deinen Rechner. Bei Code, Verträgen, Patientendaten oder persönlichen Notizen hast du danach keine Kontrolle mehr. Ein lokaler Server mit einem lokalen Modell läuft auf deiner Hardware, ohne Internet — Datenschutz aus Architekturprinzip statt aus Vertrauen.

Kapitel 02

Cloud-AI hat noch andere Kosten

Pro-Token-Abrechnung skaliert linear mit deinem Workload. Rate-Limits bremsen Experimente. Das Modell wird still im Hintergrund geupdatet, dein Prompt von gestern liefert heute andere Outputs. Vendor-Lock-in macht Migration teuer. Lokal: einmalige Hardware-Kosten, danach unlimitierte Inferenz mit reproduzierbarem Verhalten.

Kapitel 03

Was steckt physisch drin?

Ein lokaler KI-Server ist im Kern: schneller RAM (16 GB für kleine Modelle, 64 GB+ für die guten), eine GPU mit viel VRAM oder ein Apple Silicon Mac mit Unified-Memory, ein NVMe-SSD damit die mehrere Gigabyte großen Modell-Files in Sekunden laden. Kein Spezial-Hardware — du hast wahrscheinlich schon genug.

Kapitel 04

Die Software-Schichten

Fünf Layer, jeder ersetzbar:

OS — macOS, Linux, Windows
Runtime — Ollama, llama.cpp, vLLM, LM Studio
Modell-Datei — .gguf oder .safetensors
HTTP-API — meist OpenAI-kompatibel auf localhost
Client — Browser-UI, Editor-Plugin, eigene App

Kapitel 05

Hardware passend wählen

Faustregel: das quantisierte Modell muss in den RAM bzw. VRAM passen.

7B Q4 → ≈ 4–5 GB · läuft auf jedem modernen Laptop
13B Q4 → ≈ 8–10 GB · M2/M3 Mac mit 32 GB oder RTX 4090
70B Q4 → ≈ 40 GB · Mac Studio M-Ultra oder Multi-GPU

CPU-only funktioniert, ist aber 5–10× langsamer als GPU/Apple Silicon.

Kapitel 06

Runtime installieren

Einfachster Einstieg auf jedem OS: Ollama. Eine Zeile.

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows: ollama.com/download → Installer

Alternativen: LM Studio mit GUI, llama.cpp low-level für Maximum-Kontrolle, vLLM für High-Throughput-Servers.

Kapitel 07

Modell aussuchen und laden

ollama pull llama3.2:3b       # klein, schnell, Edge
ollama pull qwen2.5-coder:7b  # Code-spezialisiert
ollama pull deepseek-r1:14b   # Reasoning

Quantisierung schrumpft Modelle ohne dramatischen Qualitätsverlust — Q4_K_M ist der Sweet-Spot. Mehrere parallel laden, vergleichen, wechseln wie Schuhe.

Kapitel 08

Verbinden und loslegen

Du hast jetzt einen OpenAI-kompatiblen Server auf http://localhost:11434.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "hi"}]
  }'

Continue.dev für VSCode, Open-WebUI im Browser, eigene App via SDK — das gleiche Setup, viele Frontends. Du hast jetzt deine eigene KI.

Initialisiere…