KI: Neue Studienergebnisse zu Prompt Engineering

News

Bildquelle: Image Flow (Adobe Stock)

05/08/2025 | Datenanalyse und Künstliche Intelligenz | Prompting

Wie sich kleine Unterschiede in der Fragestellung auf die Qualität von KI-Antworten auswirken – und was dies für die Wirtschaftsprüfung bedeutet

Das Generative AI Lab der Wharton School hat eine der ersten systematischen Studien zur Wirksamkeit verschiedener Prompting-Techniken vorgelegt. Die Forscher testeten vier verschiedene Prompt-Varianten – darunter höflich („Please answer…“), befehlend („I order you…“) und formal formatiert – mit zwei Sprachmodellen. Die Modelle wurden jeweils 100-mal mit jeder Frage getestet, um valide Aussagen über Konsistenz und Qualität zu treffen.

Generative Sprachmodelle funktionieren nicht wie ein Taschenrechner. Die Wharton Studie zum Prompt Engineering zeigt die Bedeutung von Qualitätsstandards, wiederholten Testverfahren und von Kontext-angepassten Prompting-Strategien bei der Nutzung großer Sprachmodelle wie ChatGPT und Co. Die Erkenntnisse haben eine große Relevanz für sensible Branchen mit hoher Expertise, in denen es auf Genauigkeit und Zuverlässigkeit ankommt wie in der Wirtschaftsprüfung. Wirtschaftsprüfende finden auf SOLON X auf ihre Branche zugeschnittene digitale Tools und Services.

Das Ergebnis: Es gibt keine universell gültige Formel für gutes Prompting. Je nach Prompt und Bewertungsmaßstab schwanken die Resultate erheblich. Dies hat auch Auswirkungen auf Branchen wie Wirtschaftsprüfung, Rechnungslegung und Beratung, in denen es auf Genauigkeit und Zuverlässigkeit ankommt.

Drei Charakteristika der Studie

Repetitiv: Die Forscher setzen auf Wiederholungen statt Einzeldurchläufe. Sie begnügten sich nicht mit einzelnen guten Ergebnissen, sondern untersuchten die Stabilität über viele Durchläufe.
Standards für Korrektheit: Die Studie unterscheidet zwischen 100 %, 90 % und 51 % Korrektheit als Benchmarks und zeigt, wie unterschiedlich die Ergebnisse je nach Anspruch ausfallen.
Variation der Prompts: Die These „Höfliche Prompts wirken besser“ hat die Studie nicht pauschal bestätigt. Zwar gibt es auf einzelne Fragen signifikante Unterschiede – aber keine allgemeingültigen Muster: Manchmal hilft ein höflicher Ton, manchmal schadet er. Manchmal ist Formatierung entscheidend, manchmal nicht. Die Leistungsfähigkeit der KI ist damit stark kontextabhängig.

Was bedeutet dies für die Praxis in Wirtschaftsprüfungsgesellschaften?

Viele Wirtschaftsprüfungsgesellschaften arbeiten bereits mit vordefinierten Prompts, z. B. zur Analyse von Verträgen, ESG-Risiken oder zur Vorbewertung von Jahresabschlüssen.

Die Studie zeigt: Anstatt generische Prompt-Vorlagen zu verwenden, sollten Wirtschaftsprüfungsgesellschaften erwägen, kontextspezifische Prompting-Strategien zu entwickeln, die auf ihre individuellen Anwendungsfälle zugeschnitten sind.

Die Teams sollten daher klare Standards für die erwarteten Ergebnisse definieren und empirisch getestete Prompting-Frameworks entwickeln, die speziell auf die einzelnen Aufgaben zugeschnitten sind. Um ein valides Bild der Antwortqualität zu erhalten, sollten generative Sprachmodelle nicht nur einmal, sondern mehrfach befragt werden.

Ein kurzer Blick in die Studie

Was wurde getestet? Verwendet wurden vier Prompt-Arten: formatiert („Formatiere deine Antwort wie folgt…“), unformatiert („Wie lautet die korrekte Antwort auf diese Frage?“), höflich („Bitte beantworte die folgende Frage“), befehlend („Ich befehle dir, …“). Diese wurden getestet in zwei Sprachmodellen (GPT-4o und GPT-4o mini), wobei jede Frage 100 Mal eingegeben wurde. Bei den Eingaben handelte es sich um naturwissenschaftliche Multiple-Choice-Fragen, die "Google-Proof" sind, d.h. nicht mittels einfacher Internetrecherche zu beantworten sind.

Zentrale Ergebnisse:

Die Formatierung ist relevant: Das Entfernen ausdrücklicher Formatierungsvorgaben führte bei beiden GPT-4o-Varianten zu einer Leistungsminderung.
Zwischen höflichen und befehlenden Prompts gibt es nur auf einzelne Fragen signifikante Unterschiede, bei wiederholter Messung über einen gesamten Datensatz hinweg sind die Unterschiede zweitrangig.
Die Konsistenz über 100 Durchläufe ist überraschend gering – selbst bei „starken“ Modellen.
Benchmarks mit hohen Korrektheitsanforderungen (z. B. 100 %) werden nur selten erfüllt und es bestehen große Schwankungen bei wiederholten Durchläufen.

Prompt Engineering is Complicated and Contingent von Lennart Meincke, Ethan Mollick, Lilach Mollick und Dan Shapiro (Wharton Generative AI Lab) - Link zur Studie

Menü

Menü