Das Paper „Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools“ von Magesh et al. untersucht die Zuverlässigkeit von AI-basierten juristischen Forschungstools, die auf Retrieval-Augmented Generation (RAG) basieren. RAG kombiniert die Fähigkeiten von Sprachmodellen mit einer Datenbank von juristischen Dokumenten, um präzisere und verlässlichere Antworten zu generieren. Die Studie zeigt jedoch, dass trotz der Versprechen dieser Tools, Halluzinationen, also das Generieren von falschen Informationen, weiterhin ein ernsthaftes Problem darstellen.

Die Studie verwendet ein umfangreiches Datenset von über 200 offenen juristischen Anfragen, um verschiedene Aspekte der Leistung dieser Systeme zu testen. Diese Fragen decken ein breites Spektrum ab, von allgemeinen Forschungsfragen über spezifische juristische Fragen bis hin zu Fragen mit falschen Prämissen und Faktenabrufen. Die Ergebnisse zeigen, dass die Systeme in zwei Hauptarten halluzinieren: Erstens, indem sie falsche Informationen liefern, und zweitens, indem sie korrekte Informationen liefern, aber falsche Quellen zitieren.

Ein besonders besorgniserregender Befund ist die „misgrounded“ Halluzination, bei der die AI zwar korrekte rechtliche Informationen bereitstellt, diese jedoch auf Quellen stützt, die die Aussagen nicht tatsächlich unterstützen. Diese Art von Fehler kann besonders schädlich sein, da sie den Anschein erweckt, dass die Antwort auf soliden rechtlichen Quellen basiert, was jedoch nicht der Fall ist.

Die Forscher identifizierten mehrere Herausforderungen, die spezifisch für RAG-basierte juristische AI-Systeme sind. Erstens ist die juristische Recherche an sich schwierig, da das Rechtssystem komplex und dynamisch ist. Zweitens können die abgerufenen Dokumente oft irrelevante oder veraltete Informationen enthalten, da sich Gesetze und Präzedenzfälle über die Zeit und zwischen verschiedenen Gerichtsbarkeiten ändern. Drittens besteht die Gefahr der „sycophancy“, wobei das System die falschen Annahmen des Nutzers bestätigt, anstatt sie zu korrigieren.

Die Studie kommt zu dem Schluss, dass die Behauptungen der Anbieter über halluzinationsfreie AI übertrieben sind. Während RAG-Systeme die Halluzinationsrate im Vergleich zu allgemeinen Chatbots reduzieren, sind sie noch weit davon entfernt, vollkommen zuverlässig zu sein. Die Autoren betonen die Notwendigkeit, dass juristische Fachleute die Ergebnisse dieser AI-Tools sorgfältig überprüfen und sich ihrer Schwächen bewusst sind, um fehlerhafte rechtliche Entscheidungen zu vermeiden.

Diese Erkenntnisse sind besonders relevant in einem Bereich, in dem präzise und zuverlässige Informationen von entscheidender Bedeutung sind. Die fortgesetzte Überwachung und Verbesserung dieser Systeme ist notwendig, um ihre Integration in die juristische Praxis verantwortungsvoll zu gestalten.

AI in der Juristischen Forschung: Chancen und Risiken von RAG-basierten Systemen