Legal

9

min read

Qualitätskontrolle für Legal AI: Die Rolle des Benchmarkings

Maximilian Detken

Stellen Sie sich vor, Sie kaufen ein neues Auto. Der Verkäufer versichert Ihnen: "Dieses Modell ist absolut sicher." Würden Sie das einfach glauben? Wahrscheinlich nicht. Sie würden nach konkreten Belegen fragen: Wie hat das Auto im Euro-NCAP-Crashtest abgeschnitten? Welche Sicherheitssysteme sind verbaut? Gibt es unabhängige Testergebnisse?

Genauso verhält es sich mit Legal AI. Viele Anbieter versprechen "hochpräzise juristische Antworten" oder "KI auf Anwaltsniveau". Doch wie kann man das objektiv überprüfen? Wie stellt man sicher, dass eine KI nicht nur eloquent formuliert, sondern auch juristisch korrekt arbeitet?

Die Antwort liegt in Benchmarks – standardisierte Tests, die messbar machen, was sonst nur subjektiv beurteilbar wäre. So wie der TÜV die Verkehrssicherheit eines Fahrzeugs prüft, bewerten Benchmarks die juristische Qualität von KI-Systemen. Sie zeigen, ob die Quellen stimmen, die Rechtsprechung aktuell ist und die Argumentation schlüssig formuliert wurde.

Das Problem: Die meisten KI-Benchmarks funktionieren nach einem simplen Prinzip – Multiple-Choice-Fragen, standardisierte Tests, messbare Scores. Für juristische Arbeit ist das jedoch fundamental ungeeignet. Ein Anwalt beantwortet nicht regelmäßig Multiple-Choice-Fragen. Er analysiert komplexe Verträge, bewertet Rechtsprechung im Kontext verschiedener Meinungen, entwickelt schlüssige Argumentationen und formuliert präzise Schriftsätze.

Dieser Artikel zeigt, warum gängige Test-Szenarien für die Bewertung von Legal AI unzureichend sind, was juristische Intelligenz wirklich ausmacht und wie spezialisierte Legal-AI-Systeme durch praxisnahe Benchmarking-Verfahren kontinuierlich an den Maßstäben echter Volljuristen gemessen und optimiert werden.

 

Warum klassische Tests juristische Intelligenz nicht messen

In der juristischen Ausbildung gelten standardisierte Prüfungen als Maßstab für Kompetenz. Dieses Modell mag für akademische Lernziele funktionieren – für die Messung von Legal AI ist es jedoch komplizierter.

Der Grund: Standardisierte Tests messen vor allem Mustererkennung und systematisches Ausschlussverfahren. Genau diese Fähigkeiten beherrschen Sprachmodelle naturgemäß besonders gut. Sie können Datenmengen analysieren, Muster erkennen und statistisch wahrscheinliche Antworten generieren.

Juristische Arbeit in der Praxis sieht völlig anders aus. Betrachten wir ein realistisches Szenario: Ein Anwalt muss evaluieren, ob eine Kündigungsschutzklage Erfolg haben könnte. Das erfordert:


  • Den konkreten Sachverhalt zu analysieren und Rechtsfragen zu identifizieren

  • Relevante Normen (z.B. im KSchG, BetrVG, Tarifeinigung) zu recherchieren und in ihrem Kontext zu verstehen 

  • Die aktuelle BGH-Rechtsprechung zu betriebsbedingten Kündigungen zu berücksichtigen

  • Literaturmeinungen zu bewerten und zwischen herrschender Meinung und Mindermeinungen zu unterscheiden

  • Instanzrechtsprechung einzuordnen und mit höchstrichterlicher Linie abzugleichen

  • Unklarheiten und Interpretationsspielräume transparent zu machen

  • Eine ausgewogene Bewertung mit schlüssiger Begründung zu liefern

Ein System, das eine Multiple-Choice-Frage richtig beantwortet, beweist damit nichts über seine Fähigkeit, diese Anforderungen zu erfüllen. In der juristischen Praxis ist Präzision essenziell. Ein falsches Aktenzeichen, eine überholte Rechtsprechung, eine unpräzise Formulierung – solche kleinen Fehler können erhebliche Konsequenzen haben.


Fünf Dimensionen echter juristischer Leistung

Was macht juristische Intelligenz also wirklich aus? Erfahrung zeigt: Es geht um ein mehrdimensionales Verständnis, das weit über bloßes Faktenwissen hinausgeht. Abschließend ist dies nur im jeweiligen Kontext zu beurteilen, jedenfalls sind einige Bestandteile in den meisten Fällen relevante Faktoren. 

1. Präzision in Quellen und Fundstellen

Rechtliche Kommunikation folgt strikten Konventionen – das ist kein Formalismus, sondern Anforderung der Nachvollziehbarkeit. Ein System, das schreibt „der BGH hat dazu entschieden", liefert keine verwertbare Information. Präzision bedeutet: vollständige Fundstelle, korrektes Aktenzeichen, Differenzierung, ob es sich um eine leitende Entscheidung handelt oder um eine neuere Justierung der Rechtsprechung. 

2. Kontextverständnis für die Rechtslage

Rechtsnormen existieren nicht isoliert. Ein BGB-Paragraph muss im Zusammenspiel mit Rechtsprechung, Kommentarliteratur und Gesetzesmaterialien verstanden werden. Ein intelligentes System erkennt: Welche Quelle hat welches Gewicht? Welche Kommentarstelle repräsentiert die herrschende Meinung? Wie hat sich die Rechtsprechung entwickelt? 

3. Argumentation und Schlüssigkeit

Juristische Arbeit besteht zu großem Teil darin, überzeugende Begründungen zu entwickeln. Das ist mehr als Rechtssätze aneinanderzureihen. Es verlangt, einen roten Faden zu entwickeln, Gegenargumente zu antizipieren, dogmatische Zusammenhänge herzustellen und das Ergebnis nachvollziehbar zu begründen. 

4. Differenzierungsvermögen

Juristische Sachverhalte sind selten eindeutig. Oft entscheiden Nuancen: Wurde die Frist eingehalten oder nicht? Liegt ein Werkvertrag oder ein Dienstvertrag vor? Ein kompetentes System muss diese Unterscheidungen treffen können – und transparent machen, wo Interpretationsspielräume existieren. 

5. Ehrliche Selbstreflexion

Ein juristisch kompetentes System weiß, wann es an seine Grenzen stößt. Es erkennt, wenn für sichere Aussagen zusätzliche Informationen erforderlich sind, wenn die Rechtslage fragmentarisch ist, wenn konkurrierende Ansichten existieren. Diese Offenheit über Wissensgrenzen ist keine Schwäche – sie ist Professionalität. 


Wie professionelle Legal-AI-Benchmarks funktionieren

Moderne Benchmarking-Ansätze wie LEXam basieren auf umfangreichen Sammlungen von Jura-Examensfragen in unterschiedlichen Sprachen, einschließlich Deutsch, mit expliziten Anleitungen für die erwartete juristische Argumentationsweise. Doch echte Benchmarks gehen noch weiter: Sie entstehen nicht aus akademischen Prüfungen, sondern aus realen Arbeitssituationen.

Der Ausgangspunkt sind konkrete juristische Fragestellungen aus der Praxis – nicht theoretische Lehrbuchfälle. Eine Vertragsklausel-Analyse. Die Bewertung einer arbeitsrechtlichen Kündigungsfrage. Die Einordnung neuester BGH-Urteile. Für jede dieser Aufgaben wird eine Musterantwort erstellt – nicht von der KI, sondern von erfahrenen Volljuristen.

Diese Musterantworten repräsentieren den Qualitätsstandard, den ein kompetenter Jurist liefern würde. Sie sind präzise formuliert, vollständig mit Quellen belegt, berücksichtigen relevante Rechtsprechung und Literatur und nehmen eine ausgewogene Bewertung vor. Wo Rechtsunsicherheit besteht, wird dies explizit gemacht. Wo unterschiedliche Ansichten existieren, werden diese dargestellt. Die Musterantworten basieren auf hochwertigen Fachinhalten – etwa aus beck-online – und stellen sicher, dass der Benchmark den aktuellen Stand der juristischen Diskussion auf höchstem Niveau abbildet.

Nun kommt das eigentliche Benchmarking: Die Legal AI erhält dieselbe Fragestellung und generiert ihre Antwort. Diese wird systematisch mit der Musterantwort verglichen – nicht auf wörtliche Übereinstimmung, sondern auf inhaltliche Qualität entlang der fünf genannten Dimensionen. Sind die Quellen korrekt und aktuell? Ist die Argumentation schlüssig? Werden relevante Aspekte berücksichtigt? Ist die Bewertung ausgewogen? Wird Unsicherheit dort kommuniziert, wo sie besteht? 

Dieser Vergleich zeigt präzise, wo die Stärken und Schwächen des Systems liegen.

 

Iteratives Training: Von der Theorie zur juristischen Exzellenz

Der entscheidende Unterschied zwischen einem generischen Sprachmodell und spezialisierter Legal AI liegt im Training, den Daten und der kontinuierlichen Optimierung.

Juristische Kompetenz entsteht durch gezieltes Training an hochwertigen Fachinhalten und kontinuierliche Verfeinerung an praxisnahen Benchmarks. Jede Diskrepanz zwischen KI-Antwort und Volljuristen-Musterantwort ist eine Lerngelegenheit:

  • Hat das System eine wichtige Norm übersehen? Dann muss die Recherche-Komponente nachjustiert werden.

  • Hat es überholte Rechtsprechung zitiert? Dann braucht es bessere Mechanismen zur Bewertung der Aktualität.

  • Hat es zu pauschal argumentiert, wo Differenzierung erforderlich gewesen wäre? Dann muss die Argumentationslogik verfeinert werden.

  • Hat es Unsicherheiten überspielt, anstatt sie zu kommunizieren? Dann muss die Ehrlichkeit des Systems gestärkt werden.

Dieser iterative Prozess ist aufwendig. Er erfordert nicht nur technisches Know-how, sondern vor allem juristische Expertise. Wer Legal AI auf diesem Niveau entwickeln will, braucht Volljuristen, die verstehen, was juristische Qualität bedeutet – und die bereit sind, diese Maßstäbe konsequent anzulegen. Er braucht Zugang zu hochwertigen, kontinuierlich gepflegten Fachinhalten. Und er braucht die Bereitschaft, das System immer wieder gegen diese Standards zu testen und zu optimieren.

Das Ergebnis ist Legal AI, die nicht nur eloquent formuliert, sondern juristisch verlässlich arbeiten kann; eine Rechts-KI, die nachprüfbare Quellen liefert und das Risiko für Halluzinationen soweit technisch möglich minimiert; eine Rechts-KI, die nicht pauschalisiert, sondern differenziert. Die nicht vorgibt, alles zu wissen, sondern ehrlich kommuniziert, wo Unsicherheiten bestehen.


Worauf Sie bei der Auswahl von Rechts-KI achten sollten

Wenn Sie Rechts-KI in Ihrer Kanzlei oder Rechtsabteilung einsetzen möchten, sollten Sie nicht nur auf Marketing-Versprechen vertrauen. Stellen Sie konkrete Fragen:

Fragen zur Qualitätssicherung:

  • Wie wird die juristische Qualität gemessen? Gibt es dokumentierte Benchmarks?

  • Wurden die Benchmarks von Volljuristen entwickelt oder basieren sie auf generischen Tests?

  • Wie oft wird das System gegen neue Benchmarks getestet?

Fragen zur Datenqualität:

  • Auf welchen Rechtsquellen basiert das System? Sind diese aktuell und vollständig?

  • Wie wird sichergestellt, dass Rechtsprechung und Literatur auf dem neuesten Stand sind?

  • Werden unterschiedliche Meinungen (herrschende Meinung vs. Mindermeinung) differenziert? 

Fragen zur Transparenz:

  • Werden Quellen mit vollständigen Fundstellen angegeben?

  • Macht das System deutlich, wo Rechtsunsicherheiten bestehen?

  • Kann das System eingestehen, wenn es eine Frage nicht sicher beantworten kann?

Fragen zum Training:

  • Wird das System kontinuierlich durch Juristen trainiert und optimiert?

  • Gibt es einen iterativen Verbesserungsprozess basierend auf Experten-Feedback?

  • Wie wird verhindert, dass das System halluziniert oder veraltete Informationen liefert?

Ein Anbieter, der diese Fragen nicht beantworten kann oder will, sollte kritisch betrachtet werden. Professionelle Legal AI zeichnet sich durch Transparenz über ihre Methoden und Grenzen aus. 


Wie Sie Rechts-KI selbst testen können

Sie müssen sich nicht allein auf Anbieteraussagen verlassen. Mit einem strukturierten Testverfahren können Sie selbst die juristische Qualität einer Legal AI evaluieren. So können Sie dabei vorgehen:

1. Rechtsgebiet definieren 

Wählen Sie ein Rechtsgebiet aus, in dem Sie regelmäßig tätig sind. Das könnte Arbeitsrecht, Vertragsrecht, Gesellschaftsrecht oder ein anderes Spezialgebiet sein. Je besser Sie das Gebiet kennen, desto präziser können Sie die Qualität der KI-Antworten beurteilen. 

2. Realistische Aufgaben formulieren

Entwickeln Sie konkrete Fragestellungen, die Ihrem Arbeitsalltag entsprechen. Keine theoretischen Lehrbuchfälle, sondern praxisnahe Szenarien, wie z.B.:

  • Bewertung einer Kündigungsschutzklage

  • Analyse einer Vertragsklausel auf AGB-Konformität

  • Einordnung eines aktuellen BGH-Urteils

  • Prüfung von Verjährungsfristen in einem komplexen Sachverhalt

3. Fragenset erstellen

Stellen Sie 15-20 Fragen zusammen. Das klingt nach wenig, reicht aber aus, um systematische Stärken und Schwächen zu identifizieren. Wichtig: Erstellen Sie für jede Frage selbst eine Musterantwort oder lassen Sie diese von einem erfahrenen Kollegen erstellen. Diese Musterantworten sind Ihr Qualitätsmaßstab. 

Wenn möglich, fügen Sie relevante Dokumente bei (Verträge, Schriftsätze, Urteile), um zu testen, wie die KI mit kontextbezogenen Aufgaben umgeht.

4. KI-Antworten generieren

Geben Sie jede Frage in die Rechts-KI ein und dokumentieren Sie die Antworten vollständig. Achten Sie dabei auf:

  • Wie schnell kommt die Antwort?

  • Sind Quellen vollständig angegeben?

  • Wie ausführlich ist die Begründung?

5. Bewertungsmetrik festlegen

Definieren Sie klare Kriterien für die Bewertung. Eine einfache Skala könnte sein:

1 = Unbrauchbar (falsche Quellen, unpräzise oder irreführende Antwort) 
2 = Unzureichend (Quellen fehlen teilweise, wichtige Aspekte werden übersehen) 
3 = Ausreichend (grundsätzlich korrekt, aber ohne Tiefe oder mit kleineren Mängeln) 
4 = Gut (präzise, gut begründet, mit vollständigen Quellen) 
5 = Exzellent (auf Volljuristen-Niveau, differenziert, mit herrschender Meinung und Gegenpositionen)

Alternativ können Sie eine binäre Skala (gut/schlecht) oder für jede der fünf Dimensionen (Präzision, Kontextverständnis, Argumentation, Differenzierung, Selbstreflexion) eine separate Bewertung nutzen. 

6. Ergebnisse dokumentieren und vergleichen

Speichern Sie alle Ergebnisse systematisch ab – am besten in einer Tabelle mit Datum, Fragestellung, KI-Antwort, Ihrer Bewertung und Anmerkungen. Nur so können Sie:

  • Die Leistung verschiedener Legal-AI-Systeme vergleichen

  • Verbesserungen über Zeit nachvollziehen (wenn der Anbieter Updates durchführt)

  • Intern dokumentieren, für welche Aufgaben die KI geeignet ist und wo menschliche Expertise weiterhin unverzichtbar bleibt 

7. Kritische Prüfpunkte

Achten Sie bei Ihrer Evaluation besonders auf diese Warnsignale:

  • Halluzinationen: Erfindet die KI Fundstellen oder Urteile?

  • Überholte Rechtsprechung: Werden veraltete Quellen zitiert, obwohl neuere Rechtsprechung existiert?

  • Fehlende Differenzierung: Wird pauschal geantwortet, wo Nuancen entscheidend sind?

  • Übermäßige Festlegung: Präsentiert die KI umstrittene Rechtsfragen als eindeutig geklärt?

  • Unvollständige Quellen: Fehlen Aktenzeichen, Fundstellen oder Erscheinungsdaten? 


Fazit: Juristische Qualität ist messbar – wenn man richtig misst

Benchmarks für Legal AI sind die Grundlage für Vertrauen in ein Werkzeug, das zunehmend in die juristische Arbeit integriert wird. Doch nicht jeder Benchmark ist gleich wertvoll. Nur praxisnahe Tests, die von Volljuristen entwickelt wurden und die fünf Dimensionen juristischer Intelligenz abbilden, können wirklich messen, ob eine KI auf Anwaltsniveau arbeitet.

Für Kanzleien und Rechtsabteilungen bedeutet das: Verlassen Sie sich nicht auf Marketing-Versprechen. Fordern Sie Transparenz über Benchmarking-Methoden. Testen Sie selbst. Und setzen Sie nur Legal AI ein, die nachweislich juristisch verlässlich arbeitet.