Cloud Native KI - Live Demo: GPUStack & Qwen3

Live Demo: GPUStack & Qwen3

Model Serving Platform Installation & LLM Deployment

GPUStack Manifest anwenden:

kubectl apply -f demo/gpustack.yaml

Status prüfen:

kubectl get pods -n gpustack

Web UI öffnen:

kubectl port-forward -n gpustack svc/gpustack-server 8080:80

In GPUStack Web UI (localhost:8080):

• Models → Deploy Model

• Model Source: Hugging Face

• Model Name: Qwen/Qwen3-0.6B

Modell-Features:

✓ Thinking Mode (für komplexe Reasoning)

✓ Non-Thinking Mode (für Effizienz)

✓ 0.6B Parameter (GPU-effizient)

✓ 32k Context Length

Test-Prompts für Demo:

Thinking Mode:

"Erkläre die Vorteile von Cloud Native KI in Kubernetes"

Non-Thinking Mode:

"Was ist GPUStack? /no_think"

Live demonstrieren:

• Playground öffnen

• Thinking vs. Non-Thinking Mode

• GPU-Nutzung in Monitoring

• Response-Geschwindigkeit

Fallback: Screenshots/Video falls Live-Demo nicht funktioniert • Qwen3 Highlights: Seamless Thinking/Non-Thinking Switch