Phase 1: Manuelles Mixen – Das Beispiel-MVP

Phase 1: Der manuelle Prototyp

Ein interaktiver Start zur Validierung der Grundlagen.

Jupyter Setup: Interaktiver Pod mit GPU-Zugriff.

Modell laden: DeepSeek 8B mit unsloth (4-bit).

Daten aufbereiten: DAPO-Math für deutsches Reasoning.

Reward-Funktionen: 5 Metriken für RL definieren.

GRPO Training: Reinforcement Learning mit 100 Steps.

LoRA speichern: Trainierte Adapter sichern & verifizieren.