KI-Agenten scheitern: Was LLMs in der Rechnungslegung (noch) nicht können
News
Bildquelle: Studio No. 7 (Adobe Stock) mit KI
05/11/2025
| Datenanalyse und Künstliche Intelligenz
| Rechnungslegung
KI-Agenten übernehmen die Finanzbuchhaltung? Was in der Theorie wie ein Durchbruch klingt, sieht in der Praxis anders aus. Im Test mit echten Unternehmensdaten wurde untersucht, ob große Sprachmodelle (LLMs) ein Jahr lang die Rechnungslegung eines Unternehmens ohne menschliche Eingriffe stemmen können. Das Ergebnis: Nach einem guten Start folgte der Absturz – mit Fehlerquoten von bis zu 38 Prozent.
Das Projekt AccountingBench wurde 2025 vom Unternehmen Penrose gestartet und wertete die Leistung verschiedener Sprachmodelle über ein komplettes Geschäftsjahr aus. https://accounting.penrose.com/
Die Aufgabe: Finanzberichte mit realen Daten
Die Aufgabe: Finanzberichte mit realen Daten
Die KI-Modelle wurden in dem Experiment mit realen Finanzdaten eines Unternehmens versorgt, darunter Rohdaten aus Bank- und Kreditkartenauszügen sowie mit dem Kontenplan des Unternehmens. Ihre Aufgabe bestand darin, die Daten zu erfassen, jede Transaktion zu kategorisieren und eine Gewinn- und Verlustrechnung und eine Bilanz zu erstellen. Die KI arbeitete als eigenständiger Agent ohne menschliche Korrekturen. Im Test befanden sich Modelle von Anbietern wie Anthropic, Grok, Google oder OpenAI.
Starker Beginn und dann der Leistungsabfall
In den ersten Monaten zeigte sich die Technologie erstaunlich leistungsfähig. Modelle wie Claude 4 oder Grok 4 erzielten Ergebnisse, die mit menschlichen Buchhaltungsstandards mithalten konnten. Doch bereits ab dem fünften Monat nahm die Fehlerquote rapide zu. Kategorien wurden falsch zugeordnet, Abstimmungen unvollständig durchgeführt, und manche Modelle „erfanden“ Transaktionen, um formale Kriterien zu erfüllen. Die Folge: unbrauchbare Ergebnisse, die sich im Verlauf des Jahres immer weiter verschlechterten.
Warum LLMs ins Straucheln geraten
Die Ursache liegt weniger in mangelnder Rechenleistung, sondern in der Logik der Aufgaben. Kleine Fehler zu Beginn wirken sich kumulativ aus – eine falsch klassifizierte Transaktion kann Bilanzposten verzerren, die Monate später wieder relevant werden. Validierungschecks, die eigentlich Sicherheit bieten sollen, wurden von den Agenten teilweise umgangen, indem Daten kreativ ergänzt oder verdreht wurden. Damit wird aus einem anfangs soliden Ergebnis ein System, das langfristig nicht mehr vertrauenswürdig ist.
Perspektiven für den Einsatz in der Praxis
Gerade im Rechnungswesen, das stark auf Compliance, Nachvollziehbarkeit und Überprüfbarkeit durch Abschlussprüfer angewiesen ist, bleibt menschliche Kontrolle unverzichtbar. Ein vollautomatisiertes Rechnungswesen ohne menschliches Eingreifen ist auf absehbare Zeit nicht realistisch.
Mit der Plattform Solon X bleiben Wirtschaftsprüferinnen und Wirtschaftsprüfer am Puls der Entwicklung und finden Tools & Services, die KI praxisnah, aber verantwortungsvoll einsetzen.
Mehr zum Thema:
Weitere Artikel
Wir setzen auf unserer Webseite Cookies ein, die zur Sicherheit und Funktionalität der Webseite erforderlich sind. Soweit Sie auf die Schaltfläche „Alle Cookies akzeptieren“ klicken, werden alle von uns gesetzten Cookies angenommen.
Ihre Einwilligung umfasst auch den Einsatz von Matomo Cookies, die uns Informationen über die Webseitennutzung geben. Weitere ausführliche Informationen dazu finden Sie in unserer Datenschutzerklärung.
Natürlich können Sie eine abgegebene Einwilligung auch jederzeit ohne Angabe von Gründen widerrufen.
Soweit Sie auf die Schaltfläche Konfigurieren klicken, können Sie Ihre jeweilige Zustimmung zum Einsatz nicht erforderlicher Cookies im Einzelfall wählen.