KAFFEE.INTELLIGENZ

Seite

Evaluation

Golden Set + Rubrik statt Bauchgefühl

Startseite · Aktualisiert: 12.02.2026

Evaluation macht Prompting professionell: du testest mit einem Golden Set und einer Bewertungsrubrik – statt nach Gefühl.

Minimal-Prozess

  1. Golden Set: 10–20 typische Inputs (inkl. schwierige Fälle)
  2. Rubrik: Kriterien + Skala (z. B. 1–5)
  3. Vergleich: Prompt A vs. Prompt B
  4. Dokumentation: Änderungen und Gründe notieren

Rubrik (Beispiel)

Kriterium135
Korrektheithäufig falschmeist oksehr zuverlässig
Formatinkonsistentteilweisestabil
Nutzwertzu allgemeinbrauchbarkonkret & umsetzbar

Weiter