Phase 1: Der manuelle Prototyp

Ein interaktiver Start zur Validierung der Grundlagen.

1.

Jupyter Setup: Interaktiver Pod mit GPU-Zugriff.

2.

Modell laden: DeepSeek 8B mit unsloth (4-bit).

3.

Daten aufbereiten: DAPO-Math für deutsches Reasoning.

4.

Reward-Funktionen: 5 Metriken für RL definieren.

5.

GRPO Training: Reinforcement Learning mit 100 Steps.

6.

LoRA speichern: Trainierte Adapter sichern & verifizieren.

Ergebnis: Funktionaler MVP

  • Erfolgreicher Proof of Concept für die Methode.
  • 84% deutsche Antworten vs. 12% ohne LoRA.
  • Schnelle, interaktive Entwicklung möglich.

Nachteile des Ansatzes

  • Geringe Reproduzierbarkeit (manuelle Schritte).
  • Schlechte Skalierbarkeit (keine Parallelisierung).
  • Nicht "Production-Ready" (kein CI/CD, etc.).