Deterministische Assertions treffen auf nichtdeterministische Realität – und CI wird zum Würfelspiel: API-Latenz, Netzfehler, LLM-Variabilität.
(Bild: foxaon1987/Shutterstock.com)
20.05.2026, 12:20 Uhr
Lesezeit: 13 Min.
-
Testen im Zeitalter der LLMs: Ein probabilistischer Ansatz gegen flakige Tests
- Nichtdeterminismus ist bekannt – LLMs machen ihn unvermeidbar
- Warum deterministische Tests zu „flaky“ Pipelines führen
- Beispiel: Test gegen ein SLO (Service Level Objective)
- Validierung vs. Smoke
- Gültige Ergebniskombinationen
- PUnit-Experimente und operativer Ablauf
- Deklaration eines Use Case und seiner Post-Conditions
- Fazit
Sobald Sie ein Large Language Model (LLM) in den Kontrollfluss Ihrer Anwendung integrieren, rufen Sie keine deterministische Funktion mehr auf – Sie ziehen Stichproben aus einem Modell. Das Modell kann in den meisten Fällen korrekt sein und dennoch gelegentlich fehlerhaften Output liefern: mal formal ungültig, mal semantisch daneben oder zwar schema-konform, aber für Ihre Anwendung nicht sicher brauchbar.
Deterministische Assertions treffen auf nichtdeterministische Realität – und CI wird zum Würfelspiel: API-Latenz, Netzfehler, LLM-Variabilität. PUnit macht aus Unit-Tests statistische Prüfungen: Statt „ein Output ist korrekt“ wird geprüft, ob die Pass-Rate eine Mindestqualität mit definierter Konfidenz erreicht. Ergebnis: entscheidungsfähige Tests für stochastische Systeme – also „grün“ wird wieder vertrauenswürdig.
Ein konkretes Beispiel: Ein Assistent soll eine Kundenanfrage in einen Befehl übersetzen, der als JSON ausgedrückt wird. Der Happy Path ist trivial, doch drei Fehlerklassen tauchen in der Praxis immer wieder auf:
- strukturell ungültiger Output (zum Beispiel ungültiges JSON),
- valider Output mit falscher Semantik (zum Beispiel eine nicht unterstützte Aktion),
- valider Output, der von einem strikten Schema in einer Weise abweicht, die nachgelagerte Logik bricht (zum Beispiel umbenannte Felder oder unerwartete Werte).
Mike Mannion ist Senior Software Engineer und Berater mit über 35 Jahren beruflicher Erfahrung in der Entwicklung von Unternehmenssoftware. Sein Schwerpunkt liegt auf skalierbaren Java-Lösungen, der Integration von KI und ML sowie auf Data-Warehousing- und Business-Intelligence-Systemen. Er verbindet tiefgehende technische Expertise mit pragmatischem Engineering und legt besonderen Wert auf robuste, skalierbare Architekturen, Qualitätssicherung und belastbare Teststrategien.
Das folgende Listing zeigt eine vereinfachte Happy-Path-Interaktion.
Das war die Leseprobe unseres heise-Plus-Artikels "Testen im Zeitalter der LLMs: Ein probabilistischer Ansatz gegen flakige Tests". Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Immer mehr Wissen. Das digitale Abo für IT und Technik.

Plaintext statt Notion: Alltag und Beruf mit Textdateien effizient organisieren
Die „Plaintext Productivity“ ist radikal einfach: Simple Textdateien helfen, Alltag und Beruf zu regeln. Nur wenige Regeln sind dafür nötig. Eine Anleitung.

Kerosinmangel: Welche Rechte Fluggäste bei Umbuchungen und Stornierungen haben
Airlines streichen Flüge und verweisen auf hohe Kerosinpreise. Wann Sie Geld zurückbekommen und welche Hilfe und Entschädigungen Ihnen zustehen.

Sechs smarte LED- und Laser-Projektoren von 150 bis 650 Euro im Test
Streaming direkt vom Beamer, Autofokus, teilweise mit Akku: Was die kompakten Lichtwerfer im Alltag taugen und wo sich der Mehrpreis auszahlt.

Voller Umstieg auf Erneuerbare: Warum schneller günstiger ist als Zögern
Politiker warnen vor den Kosten der Energiewende. Doch Studien zeigen: Wer klug plant und zügig umsetzt, bringt Bezahlbarkeit und Klimaneutralität zusammen.

iPhone-Klau auf Reisen: So minimiert man den Schaden
Was unsere Redakteurin gerne bedacht hätte, bevor sie nur mit ihrem iPhone ausgestattet verreiste und das Gerät gestohlen wurde.

Kurztests: „Wo ist?“-Netzteil, iPhone-SSD, MacBook-Klappständer, Solar-Keyboard
Vier Produkte für Apple-Nutzer im Test: Twelve South PlugBug 50, Lexar Professional Go, Ugreen MacBook Stand und Logitech Signature Slim Solar+.



