Live Demo: GPUStack & Qwen3
Model Serving Platform Installation & LLM Deployment
1 GPUStack Installation
kubectl apply -f demo/gpustack.yaml
kubectl get pods -n gpustack
kubectl port-forward -n gpustack svc/gpustack-server 8080:80
2 Qwen3-0.6B Deployment
In GPUStack Web UI (localhost:8080):
• Models → Deploy Model
• Model Source: Hugging Face
• Model Name: Qwen/Qwen3-0.6B
Modell-Features:
✓ Thinking Mode (für komplexe Reasoning)
✓ Non-Thinking Mode (für Effizienz)
✓ 0.6B Parameter (GPU-effizient)
✓ 32k Context Length
3 Playground Test
Test-Prompts für Demo:
Thinking Mode:
"Erkläre die Vorteile von Cloud Native KI in Kubernetes"
Non-Thinking Mode:
"Was ist GPUStack? /no_think"
Live demonstrieren:
• Playground öffnen
• Thinking vs. Non-Thinking Mode
• GPU-Nutzung in Monitoring
• Response-Geschwindigkeit
Fallback: Screenshots/Video falls Live-Demo nicht funktioniert • Qwen3 Highlights: Seamless Thinking/Non-Thinking Switch