KI: Wie kommt das Wissen in generative Sprach-Modelle?

News

Bildquelle: igishevamaria (Adobe Stick)

02/07/2025 | Datenanalyse und Künstliche Intelligenz | Markdown

Markdown als Schlüssel für hilfreiche generative KI in der Wirtschaftsprüfung

Wer nutzt heute nicht generative KI-Modelle wie ChatGPT oder Google Gemini? Doch bei der Einbindung von eigenem Fachwissen in diese Tools stehen viele Unternehmen – darunter auch Wirtschaftsprüfungsgesellschaften – noch ganz am Anfang. Eine der häufigsten Fragen lautet: „Wie kommt dabei das Wissen in solche Anwendungen?“ Dieser Beitrag will genau darauf eine Antwort geben – mit einem konkreten Einblick in die Umsetzung, unterstützt durch Python.

Wer Fachinhalte in RAG-Anwendungen einbringen möchte, sollte auf strukturierte Formate wie Markdown setzen, insbesondere wegen der langfristigen Wartbarkeit und Wiederverwendbarkeit von Wissen. Tools wie MarkItDown erleichtern den Übergang von klassischen Dokumentformaten zu KI-gerechter Informationsstruktur erheblich. Trotz der angesprochenen Probleme lassen sich nach meiner Erfahrung mit derartigen Anwendungen bereits heute die tägliche Suche und die Präsentation von Fachinformationen verbessern und damit wertvolle Zeit sparen, die für komplexere Aufgaben zur Verfügung steht. Allerdings wird die Akzeptanz solcher Systeme entscheidend davon abhängen, ob deren Antworten tatsächlich nicht oberflächlich ausfallen, sondern relevante und genaue Informationen liefern.

Mit der Plattform SOLON X bleiben Wirtschaftsprüferinnen und Wirtschaftsprüfer stets am Puls der Entwicklung in der digitalen Transformation. Für die tägliche Arbeit finden sie neue Tools und Services, die speziell für die Wirtschaftsprüfungsbranche entwickelt worden sind.

Das Potenzial von Large Language Models

Viele Unternehmen haben das Potenzial der Technologie großer KI-Sprachmodelle – sogenannter Large Language Models (LLMs) – schnell erkannt. Der nächste logische Schritt besteht darin, diese Modelle mit dem eigenen Fachwissen und internen Daten (Domain Knowledge) zu verbinden, um daraus intelligente Anwendungen zu entwickeln. Das Ziel ist es, die fachliche Informationssuche deutlich effizienter zu gestalten als mit klassischen Suchmethoden.

So entstehen Chatbot-Lösungen, die etwa Vertriebsprozesse entlasten oder Kundenanfragen automatisiert beantworten und damit produktivitätssteigernde Effekte mittels Automatisierung ermöglichen. Ein prominentes Beispiel aus unserem eigenen Umfeld ist der vom IDW Verlag entwickelte Chatbot MAIK, der bei der Recherche, dem Verständnis und der Verknüpfung fachlicher Inhalte wie Gesetzestexte, IDW Verlautbarungen oder Kommentare unterstützt.

Begrenztes Fachwissen von LLMs

Large Language Models (LLMs) verfügen allgemein nur über begrenztes Wissen, da dieses nur aus den zu Grunde liegenden Trainingsdaten besteht. Das bedeutet, dass ihr Wissen weder vollständig noch stets aktuell ist. LLMs haben keinen Zugriff auf Echtzeitinformationen wie Zinssätze oder Wechsel- und Aktienkurse, und sie können nach ihrem Trainingszeitpunkt keine neuen Fakten lernen. Besonders in spezialisierten Fachgebieten wie der Wirtschaftsprüfung kann dieses begrenzte Domänenwissen zu ungenauen oder oberflächlichen Antworten führen.

Ein weiteres Problem besteht darin, dass LLMs dazu neigen, scheinbar plausible, aber faktisch falsche Aussagen zu generieren – ein Phänomen, das als „Halluzination“ bezeichnet wird. Diese Problematik verschärft sich umso mehr, wenn exakte und verlässliche Informationen entscheidend sind.

Verbesserung mittels Retrieval Augmented Generation

Um die Qualität der Antworten in spezifischen Fachbereichen zu verbessern, ist es möglich, LLMs mit zusätzlichem Wissen anzureichern – etwa durch Retrieval-Augmented Generation (RAG). RAG zielt darauf ab, LLMs zusätzliches externes Wissen zu vermitteln, indem Dokumente integriert werden, die typischerweise in einer Datenbank als Vektoren (embeddings) gespeichert sind. Ein Beispiel hierfür ist der Vektorindex von LlamaIndex, eines Python-basierten Frameworks zur Entwicklung von LLM-basierten Anwendungen (vgl. https://www.llamaindex.ai/framework). Dies ermöglicht es LLMs, genauere und kontextrelevantere Antworten zu liefern. In derartigen RAG-Systemen sind die Erstellung und das Einfügen von neuem Fachwissen Schlüsselkomponenten - neben dem Retriever, dessen Aufgabe darin besteht, übereinstimmende Dokumente basierend auf der Abfrage eines Benutzers zu finden.

Praxisbeispiel: Fachrecherche in allgemeinen KI-Sprachmodellen

Die Wirtschaftsprüfung lebt bekanntlich auch vom Domain Knowledge – sei es z.B. bei Gutachten für die Bewertung oder bei der Durchführung einer Abschlussprüfung. Zur Veranschaulichung dessen stellen wir uns vor, Ihr Arbeitstag beginnt mit einer dieser Fragen: „Ist der Beruf der Geschäftsführerin im Anhang des Jahresabschlusses anzugeben?“ Oder: „Wie lauten der Basiszinssatz und die Marktrisikoprämie für eine Unternehmensbewertung zum letzten Stichtag 31.12.2024?“ Die Antworten wollen Sie unmittelbar entweder an Ihren Mandanten oder an Ihre Kollegen weitergeben.

Viele von uns nutzen bereits heute Sprachmodelle wie ChatGPT oder Copilot – sei es in kostenlosen Varianten oder über kostenpflichtige Angebote. Doch was liefern diese Tools, wenn man ihnen derartige Fachfragen stellt? Lassen Sie es uns ausprobieren mit der kostenlosen Version von ChatGPT, die im Browser Microsoft Edge verbaut ist. Die Antworten sind nachstehend abgedruckt:

Können wir mit diesen Ergebnissen zufrieden sein – gemessen an den Kriterien Relevanz und fachliche Genauigkeit als den zentralen Kriterien bei der Bewertung von LLM-Antworten? Ehrlich gesagt: nicht wirklich! Die Antworten sind ungenau, nicht relevant, teilweise unvollständig und bedürfen so einer weiteren Nachbearbeitung. Eine Produktivitätssteigerung sieht anders aus! Aber warum?

Diese Modelle besitzen keinen Zugriff auf unser Wissen – jenes tiefgreifende Fachwissen, das wir als Wirtschaftsprüfer täglich anwenden. Es ist überprüft, referenziert, es basiert auf anerkannten Standards und erweitert sich laufend mit jeder neuen Prüfungs- oder Bewertungsaufgabe. Um wirklich relevante und fundierte Antworten zu generieren, benötigen Sprachmodelle also Zugang zu genau diesen Inhalten: Fachliteratur, Standards, Gesetzestexte, Kommentierungen und Erfahrungswissen aus der Praxis. Doch bevor dieses Wissen in einem Chatbot genutzt werden kann, muss es in eine geeignete Form umgewandelt werden. Hier kommt Markdown ins Spiel.

Markdown – der beste Freund großer Sprachmodelle (LLMs)

Was ist Markdown? Markdown ist eine leichtgewichtige, gut lesbare Auszeichnungssprache zur Formatierung von Texten. Wenn Sie Programmcode entwickeln, brauche ich Ihnen Markdown vermutlich nicht zu erklären. Sie kennen es aus README.md-Dateien auf GitHub, um darin das Entwicklungsprojekt näher zu beschreiben.

Warum ist Markdown für LLMs so interessant? Markdown hat sich zunehmend als bevorzugtes Format im Umgang mit großen Sprachmodellen (Large Language Models, LLMs) etabliert – und das aus guten Gründen:

Es ist einfach zu schreiben und bleibt dennoch menschlich lesbar. Damit ist es als Textinput von Chatbots nützlich.
Es bietet klare Strukturierungsmöglichkeiten für Überschriften, Tabellen, Listen, Links und mehr.
Es erlaubt typografische Hervorhebungen wie Kursiv- oder Fettdruck.
Es ist weit verbreitet, z. B. auf Plattformen wie GitHub oder in Jupyter-Notebooks.

Markdown ist schließlich nicht nur für den Input von LLMs nützlich – es ist auch das bevorzugte Format, in dem viele Chatbots, etwa ChatGPT, ihre Antworten ausgeben. Nachfolgend einige Beispiele im Markdown-Format.

Beispiele der Formatierung in Markdown

Überschriften in Markdown

Markdown verwendet das `#`-Symbol zur Kennzeichnung von Überschriften. Je mehr `#`, desto niedriger die Ebene:

Formatierung in Markdown:

# Überschrift 1 (H1)

## Überschrift 2 (H2)

### Überschrift 3 (H3)

Beispiel:

# Erläuterungen zum Anhang

## Angaben nach § 284 HGB

### Angabe der Bilanzierungs- und Bewertungsmethoden

Aufzählungen in Markdown

Formatierung in Markdown:

Ungeordnete Listen:

- Punkt 1

- Punkt 2

- Unterpunkt 2.1

- Unterpunkt 2.2

Alternativ kann man auch Sterne (*) statt „-“ verwenden.

Beispiel:

Die folgenden inhärenten Risikofaktoren werden z.B. in ISA 315 Rev. 2019 genannt:

- Komplexität

- Unsicherheit

- Subjektivität

Tabellen-Formatierung in Markdown:

| Spalte 1 | Spalte 2 | Spalte 3 |

|----------|----------|----------|

| Inhalt A | Inhalt B | Inhalt C |

| Zeile 2 | Wert 2 | Wert 3 |

Beispiel:

| FAUB-Empfehlung | Vor persönlichen Steuern | Nach persönlichen Steuern |

|----------|----------|----------|

| Datum | Bandbreite | Bandbreite |

| 01.02.2022 | 6,0 – 8,0 % | 5,0 % - 6,5 % |

Die Trennlinie `|---|---|` ist erforderlich. Die Anzahl der `-` spielt keine Rolle, sie sorgt nur für die Optik.

Links auf Webseiten

Formatierung in Markdown:

[Link-Text](https://www.beispielseite.de)

Beispiel:

[Besuche OpenAI](https://www.openai.com)

Zum Schluss noch ein Hinweis: Markdown-Dateien kann jeder selbst erzeugen. Öffnen Sie einen Texteditor wie Wordpad unter Windows, schreiben Sie ihr Fachwissen wie oben beschrieben in Markdown und speichern das Ganze mit der Endung .md ab. Et voila!

Starten Sie mit Ihrem eigenen Fachwissen für das LLM – richtig aufbereitet

Stellen Sie sich vor, Sie haben die Antworten auf häufige Fachfragen der täglichen Praxis einmal in einem PDF-Dokument festgehalten. Möchten Sie dieses Wissen in eine eigene RAG-Anwendung integrieren, ist es empfehlenswert, den Inhalt zuvor in Markdown umzuwandeln – denn das verbessert Struktur, Lesbarkeit und Modellverständnis erheblich. Und hier kommt nun Python ins Spiel, mit dem sich dies sehr einfach umsetzen lässt.

Wir starten mit einer populären Python-Bibliothek, die einfache Texte aus PDFs extrahieren und diese als LLM-optimiertes Markdown-Format bereitstellen kann, nämlich MarkItDown von Microsoft. Eine weitere Bibliothek, die hier auf jeden Fall zu nennen ist, ist PyMuPDF4LLM.

MarkItDown ist eine Open-Source-Bibliothek, die nahezu jedes Dokumentenformat in sauberes, strukturiertes Markdown konvertiert. Zielgruppe sind Entwickler, technische Redakteure, Forscher und Content-Creators, die Inhalte effizient aufbereiten möchten. Unterstützte Formate sind dabei u.a. PDF (inkl. OCR-Unterstützung) sowie Microsoft Office-Formate wie Word, PowerPoint, Excel. Der Vollständigkeit halber will ich Ihnen den Python-Code zur Anwendung von MarkItDown nicht vorenthalten:

from markitdown import MarkItDown

def add_markitdown_functionality(markdown_file, markdown_output_file):

try:

with open(markdown_output_file, 'w', encoding='utf-8') as outfile:

md = MarkItDown()

result=md.convert(markdown_file)

outfile.write(result.text_content)

print(f"Konvertierung erfolgreich abgeschlossen! Datei gespeichert als {markdown_output_file}")

except Exception as e:

print(f"Ein Fehler ist aufgetreten: {e}")

Praxisbeispiel: Fachrecherche in RAG-Anwendung

Nachdem wir Markdown nun als zentrales Format für das strukturierte Verständnis von Inhalten durch Chatbots kennengelernt haben, folgt der nächste Schritt: Der Einsatz in einer realen RAG-Anwendung. Stellen Sie sich vor, wir haben relevantes Fachwissen – etwa interne Richtlinie oder FAQ-Dokumente – in Markdown überführt und in eine RAG-Anwendung integriert. Jetzt interagiere Sie mit einem echten Chatbot, der genau mit diesem Wissen gespeist wurde:

Das Ergebnis lässt sich m.E. durchaus sehen. Der Retriever (hier von LlamaIndex) hat das Fachwissen, insbesondere die Tabelle mit den Werten für die Entwicklung der Marktrisikoprämie, sehr gut erkannt, interpretiert und als Antwort präsentiert. Ebenfalls enthalten ist die Referenz auf das jeweilige Markdown-Dokument Anhang.md bzw. Marktrisikoprämie.md, in dem das Fachwissen enthalten ist. Eine Nachbearbeitung ist nicht bzw. kaum erforderlich. Durch die Kombination aus Markdown-strukturierten Inhalten und RAG-Technologie wird nicht nur schneller auf das richtige Wissen zugegriffen – die Antworten sind zudem kontextualisiert, präzise und nachvollziehbar belegt.

Hier lesen Sie mehr zum Thema „Generative Sprachmodelle und Wirtschaftsprüfung“:

Autor: WP StB Tobias Dreixler

Prüfer für Qualitätskontrolle, Senior Manager | RWT Crowe GmbH, Reutlingen

Im Mittelpunkt seiner beratenden und prüferischen Tätigkeit stehen mittelständische Unternehmen und Konzerne aus Gewerbe- und Dienstleistungssektor sowie Handel. Dabei bildet die Datenanalyse und deren effiziente Einbindung in den Prüfungsprozess. ein Schwerpunkt. Er war mehrere Jahre als Leiter Content eines führenden deutschen Unternehmens für Prüfungs- und Datenanalysesoftware tätig. Tobias Dreixler ist Autor vielfältiger Veröffentlichungen, u.a. des Buches „Python für die Wirtschaftsprüfung“.

Menü

Menü