Evaluation macht Prompting professionell: du testest mit einem Golden Set und einer Bewertungsrubrik – statt nach Gefühl.
Minimal-Prozess
- Golden Set: 10–20 typische Inputs (inkl. schwierige Fälle)
- Rubrik: Kriterien + Skala (z. B. 1–5)
- Vergleich: Prompt A vs. Prompt B
- Dokumentation: Änderungen und Gründe notieren
Rubrik (Beispiel)
| Kriterium | 1 | 3 | 5 |
|---|---|---|---|
| Korrektheit | häufig falsch | meist ok | sehr zuverlässig |
| Format | inkonsistent | teilweise | stabil |
| Nutzwert | zu allgemein | brauchbar | konkret & umsetzbar |