Una nuova tecnica evidenzia lacune nello screening di sicurezza LLM

nuke

I ricercatori di HiddenLayer hanno identificato la tecnica "EchoGram", che utilizza brevi sequenze di token, o "flip token", per aggirare i guardrail dei modelli linguistici di grandi dimensioni (LLM). Questo metodo sfrutta i punti ciechi dei dataset di addestramento, facendo sì che i prompt dannosi vengano erroneamente classificati come innocui, destabilizzando così sistematicamente le difese e aumentando il rischio che gli LLM elaborino istruzioni dannose..
Fonte: https://www.bankinfosecurity.asia/new-technique-shows-gaps-in-llm-safety-screening-a-30060

Published: Wed, 19 Nov 2025 14:37:20