1.
Jupyter Setup: Interaktiver Pod mit GPU-Zugriff.
2.
Modell laden: DeepSeek 8B mit unsloth (4-bit).
3.
Daten aufbereiten: DAPO-Math für deutsches Reasoning.
4.
Reward-Funktionen: 5 Metriken für RL definieren.
5.
GRPO Training: Reinforcement Learning mit 100 Steps.
6.
LoRA speichern: Trainierte Adapter sichern & verifizieren.
Ergebnis: Funktionaler MVP
- Erfolgreicher Proof of Concept für die Methode.
- 84% deutsche Antworten vs. 12% ohne LoRA.
- Schnelle, interaktive Entwicklung möglich.
Nachteile des Ansatzes
- Geringe Reproduzierbarkeit (manuelle Schritte).
- Schlechte Skalierbarkeit (keine Parallelisierung).
- Nicht "Production-Ready" (kein CI/CD, etc.).