Live Demo: GPUStack & Qwen3

Model Serving Platform Installation & LLM Deployment

1 GPUStack Installation

GPUStack Manifest anwenden:
kubectl apply -f demo/gpustack.yaml
Status prüfen:
kubectl get pods -n gpustack
Web UI öffnen:
kubectl port-forward -n gpustack svc/gpustack-server 8080:80

2 Qwen3-0.6B Deployment

In GPUStack Web UI (localhost:8080):

ModelsDeploy Model

• Model Source: Hugging Face

• Model Name: Qwen/Qwen3-0.6B

Modell-Features:

✓ Thinking Mode (für komplexe Reasoning)

✓ Non-Thinking Mode (für Effizienz)

✓ 0.6B Parameter (GPU-effizient)

✓ 32k Context Length

3 Playground Test

Test-Prompts für Demo:

Thinking Mode:

"Erkläre die Vorteile von Cloud Native KI in Kubernetes"

Non-Thinking Mode:

"Was ist GPUStack? /no_think"

Live demonstrieren:

• Playground öffnen

• Thinking vs. Non-Thinking Mode

• GPU-Nutzung in Monitoring

• Response-Geschwindigkeit

Fallback: Screenshots/Video falls Live-Demo nicht funktioniert Qwen3 Highlights: Seamless Thinking/Non-Thinking Switch