KI & Governance
KI im Banking: Warum abgabereife Ergebnisse nicht am Modell entstehen.
Rund 500 Investmentbankerinnen und -banker haben KI-generierte Arbeitsergebnisse aus realitätsnahen Investmentbanking-Workflows bewertet, und **kein einziges Ergebnis** war ohne Änderungen abgabereif, während 41 Prozent der Outputs eine umfassende Überarbeitung verlangten und 27 Prozent als unbrauchbar galten. Getestet wurden keine einfachen Chatbot-Antworten, sondern Excel-Finanzmodelle, PowerPoint-Präsentationen, PDF-Berichte und Word-Memos, also genau die Artefakte, die in der Praxis an Vorgesetzte oder in interne Entscheidungsprozesse gehen; die öffentlich zugängliche Einordnung u. a. bei The Decoder fasst das kurz zusammen.
Sauberer Text, halbes Modell
Viele Diskussionen zu KI im Finanzsektor verwechseln plausible Sprache mit belastbarer Arbeit, denn ein gut formulierter Absatz ist noch kein geprüftes Arbeitsergebnis in Dateiform, während eine Präsentation schnell überzeugend wirken kann, das Finanzmodell aber trotzdem rechnen muss, mit nachvollziehbaren Formeln, konsistenten Annahmen und Szenariofähigkeit. Wo Kennzahlen als feste Werte eingetragen werden statt über Formeln abgeleitet zu werden, bricht die Nutzbarkeit für echte Bankarbeit zusammen, selbst wenn die Folien optisch stimmig wirken.
BankerToolBench: was der Benchmark misst
BankerToolBench wurde von Handshake AI und der McGill University als Open-Source-Benchmark entwickelt, und die Aufgaben bilden typische Tätigkeiten von Junior-Investmentbankern ab, also Datenräume durchsuchen, Marktdatenplattformen nutzen, SEC-Pflichtveröffentlichungen auswerten und daraus **mehrere zusammenhängende Dateien** erzeugen. Die Bewertung erfolgte anhand eines von erfahrenen Bankerinnen und Bankern definierten Rasters, im Mittel mit sehr vielen Einzelkriterien pro Aufgabe, die unter anderem technische Korrektheit, Kundentauglichkeit, Vorgaben, Nachvollziehbarkeit und Konsistenz über Dateien hinweg abdecken.
Wo die Modelle scheitern, und warum das für Institute zählt
Die Fehler lagen nicht nur in Formulierungen, sondern auch an Formeln und Code, an fachlicher Logik, an Konsistenz zwischen Dateien, an abgebrochenen Datenabfragen und teilweise an erfundenen Zahlen, die als belegt ausgegeben wurden, weshalb ein solcher Test für Banken relevant ist: er misst nicht, ob KI gut klingt, sondern ob KI **Arbeit abliefern** kann, die in einem regulierten, datenintensiven Umfeld stehenbleibt.
System statt Chatbot
Damit verschiebt sich die Diskussion, denn das Problem ist nicht der Chatbot an sich, sondern vielmehr die Annahme, dass generative Systeme ohne enge Führung, klare Datenbasis und definierte Verantwortung professionelle Bankarbeit erzeugen können, und im Finanzsektor reicht Näherung deshalb nicht, weder für interne Lenkung noch für alles, was später nach außen dringen könnte.
Kundenkontakt beginnt nicht erst im Gespräch
Kundenkontakt beginnt nicht erst beim Gespräch, weil auch ein Memo, ein Pitch oder ein Finanzmodell kundennah sein kann, sobald es in eine Entscheidungsvorlage eingeht, und Fehler wirken dann nicht abstrakt, sondern sie beeinflussen Einschätzungen, Empfehlungen und Transaktionen. Der direkte Einsatz nach außen bleibt deshalb der härteste Anwendungsfall, dort zählen fachliche Richtigkeit, Nachvollziehbarkeit, regulatorische Zulässigkeit und interne Verantwortlichkeit gleichzeitig, und wenn ein Modell auch Text erzeugen kann, so liegt **Verantwortung** dafür dennoch nicht beim Modell.
Aufsicht: FINMA, BIS und FSB
Die FINMA adressiert die Lücke zwischen Experiment und Betrieb, erwartet von beaufsichtigten Instituten unter anderem Governance, Risikomanagement, Inventarisierung und Klassifizierung von KI-Anwendungen sowie klare Verantwortlichkeiten, und bei extern bezogenen Lösungen sieht sie besondere Herausforderungen, etwa bei Transparenz über eingesetzte Daten und Methoden sowie bei angemessener Due Diligence gegenüber Anbietern. Das ist keine Formalie, sondern der Rahmen, der bestimmt, ob Nutzung kontrollierbar bleibt.
Auch internationale Aufsichtsstellen sehen die Risiken nicht isoliert im Modell, denn die Bank für Internationalen Zahlungsausgleich (BIS) verweist in ihren Finanzstabilitätsanalysen darauf, dass KI ohne angemessene Kontrollen und Aufsicht bestehende Verwundbarkeiten verstärken kann, während der Financial Stability Board (FSB) unter anderem Drittanbieterabhängigkeiten, Cyberrisiken sowie Herausforderungen bei Modellrisiko und Governance benennt, passend zu dem, was Benchmarks wie BankerToolBench an den konkreten Outputs sichtbar machen.
Priorität: kontrollierte interne Prozesse zuerst
Für Banken, Asset Manager und Family Offices folgt daraus eine nüchterne Priorität, denn KI gehört zuerst in kontrollierte interne Prozesse, wo sie recherchieren, strukturieren, zusammenfassen, vergleichen und vorbereiten kann und Fachkräfte entlastet, ohne sie vorschnell zu ersetzen, und schon gar nicht dort, wo Ergebnisse ohne menschliche Prüfung in Richtung Kunde oder Gremium wandern. Die produktivsten Anwendungen liegen oft hinter der Oberfläche, etwa in Gesprächsvorbereitung, Dokumentenanalyse, interner Wissenssuche, Qualitätskontrolle, Meeting-Zusammenfassungen und ersten Entwürfen, die Nutzen schaffen, ohne Verantwortung zu verschieben: weniger spektakulär, dafür belastbarer.
Der Engpass ist Architektur, nicht Modellwahl
Der eigentliche Engpass liegt in der Architektur, weil Datenquellen geprüft sein müssen, Rollen feststehen, Ergebnisse Review-Pfade brauchen, Freigaben dokumentiert und Eskalationen klar sein müssen, denn ohne diese Struktur produziert KI Geschwindigkeit ohne Verlässlichkeit. BankerToolBench zeigt damit nicht, dass KI im Banking unbrauchbar ist, sondern dass **abgabereife Arbeit nicht durch ein Modell allein** entsteht, sondern durch ein System aus Daten, Prozess, Kontrolle und fachlicher Verantwortung. Im Finanzsektor gewinnt deshalb nicht das Tool, das am meisten verspricht, sondern die Struktur, die reproduzierbar richtige Ergebnisse liefert.