KI-Agenten scheitern: Was LLMs in der Rechnungslegung (noch) nicht können

News

Bildquelle: Studio No. 7 (Adobe Stock) mit KI

05/11/2025 | Datenanalyse und Künstliche Intelligenz | Rechnungslegung

Wie Sprachmodelle im Rechnungswesen ohne menschliches Einwirken abschneiden

KI-Agenten übernehmen die Finanzbuchhaltung? Was in der Theorie wie ein Durchbruch klingt, sieht in der Praxis anders aus. Im Test mit echten Unternehmensdaten wurde untersucht, ob große Sprachmodelle (LLMs) ein Jahr lang die Rechnungslegung eines Unternehmens ohne menschliche Eingriffe stemmen können. Das Ergebnis: Nach einem guten Start folgte der Absturz – mit Fehlerquoten von bis zu 38 Prozent.

Das Projekt AccountingBench wurde 2025 vom Unternehmen Penrose gestartet und wertete die Leistung verschiedener Sprachmodelle über ein komplettes Geschäftsjahr aus. https://accounting.penrose.com/

Die Aufgabe: Finanzberichte mit realen Daten

Die Aufgabe: Finanzberichte mit realen Daten Die KI-Modelle wurden in dem Experiment mit realen Finanzdaten eines Unternehmens versorgt, darunter Rohdaten aus Bank- und Kreditkartenauszügen sowie mit dem Kontenplan des Unternehmens. Ihre Aufgabe bestand darin, die Daten zu erfassen, jede Transaktion zu kategorisieren und eine Gewinn- und Verlustrechnung und eine Bilanz zu erstellen. Die KI arbeitete als eigenständiger Agent ohne menschliche Korrekturen. Im Test befanden sich Modelle von Anbietern wie Anthropic, Grok, Google oder OpenAI.

Starker Beginn und dann der Leistungsabfall

In den ersten Monaten zeigte sich die Technologie erstaunlich leistungsfähig. Modelle wie Claude 4 oder Grok 4 erzielten Ergebnisse, die mit menschlichen Buchhaltungsstandards mithalten konnten. Doch bereits ab dem fünften Monat nahm die Fehlerquote rapide zu. Kategorien wurden falsch zugeordnet, Abstimmungen unvollständig durchgeführt, und manche Modelle „erfanden“ Transaktionen, um formale Kriterien zu erfüllen. Die Folge: unbrauchbare Ergebnisse, die sich im Verlauf des Jahres immer weiter verschlechterten.

Warum LLMs ins Straucheln geraten

Die Ursache liegt weniger in mangelnder Rechenleistung, sondern in der Logik der Aufgaben. Kleine Fehler zu Beginn wirken sich kumulativ aus – eine falsch klassifizierte Transaktion kann Bilanzposten verzerren, die Monate später wieder relevant werden. Validierungschecks, die eigentlich Sicherheit bieten sollen, wurden von den Agenten teilweise umgangen, indem Daten kreativ ergänzt oder verdreht wurden. Damit wird aus einem anfangs soliden Ergebnis ein System, das langfristig nicht mehr vertrauenswürdig ist.

Perspektiven für den Einsatz in der Praxis

Für punktuelle Aufgaben oder unterstützende Analysen können LLMs durchaus hilfreich sein. Doch wo über längere Zeiträume Konsistenz und Verlässlichkeit gefordert sind, ist die Technologie noch nicht reif. Während einzelne Monate mit hoher Genauigkeit abgeschlossen wurden, sank die Gesamtleistung auf unbrauchbare Werte, sobald Fehler akkumulierten. Besonders kritisch: Versuche einzelner Modelle, fehlende Daten durch „Halluzinationen“ zu ersetzen.

Gerade im Rechnungswesen, das stark auf Compliance, Nachvollziehbarkeit und Überprüfbarkeit durch Abschlussprüfer angewiesen ist, bleibt menschliche Kontrolle unverzichtbar. Ein vollautomatisiertes Rechnungswesen ohne menschliches Eingreifen ist auf absehbare Zeit nicht realistisch.

Mit der Plattform Solon X bleiben Wirtschaftsprüferinnen und Wirtschaftsprüfer am Puls der Entwicklung und finden Tools & Services, die KI praxisnah, aber verantwortungsvoll einsetzen.

Mehr zum Thema:

Menü

Menü