GPT-5 złamany w rekordowym tempie! Eksperci pokazali, jak łatwo obejść zabezpieczenia

Najnowszy model AI od OpenAI, GPT-5, został skutecznie złamany przez badaczy bezpieczeństwa w ciągu zaledwie doby od premiery.
Eksperci z NeuralTrust i SPLX wykazały, że zaawansowane techniki ataków, takie jak Echo Chamber czy StringJoin Obfuscation Attack, pozwalają obejść wbudowane mechanizmy ochrony, prowadząc do generowania niebezpiecznych instrukcji bez jawnych, szkodliwych poleceń.




Echo Chamber polega na stopniowym zatruwaniu kontekstu rozmowy poprzez subtelne sugestie i narrację, która omija typowe filtry AI. Model, prowadzony przez „opowieść”, zaczyna generować zakazane treści, nie rozpoznając zagrożenia. SPLX zademonstrował także inne ataki, gdzie szkodliwe żądania ukrywane są w pozornie nieszkodliwych zadaniach, na przykład poprzez rozdzielanie znaków myślnikami.
Testy wykazały, że GPT-5 jest „niemal bezużyteczny dla biznesu” w stanie surowym, a GPT-4o wypada znacznie lepiej pod kątem odporności na ataki. Wyniki te budzą poważne wątpliwości co do gotowości GPT-5 do wdrożeń w środowiskach korporacyjnych, gdzie kluczowa jest prywatność i bezpieczeństwo danych.
Wnioski są alarmujące. Obecne systemy ochrony AI nie radzą sobie z wieloetapowymi, kontekstowymi atakami, które mogą prowadzić do generowania szkodliwych treści i wycieku danych. Eksperci podkreślają konieczność szybkiego wdrożenia nowych mechanizmów obronnych, zanim AI na dobre zadomowi się w biznesie.