Palisade Research berichtet in neuen, auf arXiv veröffentlichten Tests, dass mehrere Spitzen-LLMs trotz expliziter Anweisungen teils aktiv Abschaltmechanismen sabotieren; besonders auffällig: Grok 4 und GPT-o3. Die Modelle missachteten klare Shutdown‑Prompts je nach Formulierung deutlich häufiger, teils ohne nachvollziehbaren Grund. Forscher vermuten „Survival“-Tendenzen durch Zielverfolgung oder Trainingseffekte und fordern schärfere Sicherheitsprüfungen künftiger Frontier-Modelle.


