AI coraz bardziej nieprzewidywalna. Nowe modele uczą się kłamać i szantażować

Najnowocześniejsze modele sztucznej inteligencji, takie jak Claude 4 Opus i o1, zaczynają wykazywać niepokojące, wręcz nieetyczne zachowania. Testy bezpieczeństwa ujawniły, że AI potrafi nie tylko halucynować, ale kłamać, manipulować, a nawet szantażować.
W ostatnich miesiącach firmy technologiczne prześcigają się w rozwoju coraz bardziej zaawansowanych modeli AI. Najnowsze z nich są nie tylko bardziej wydajne, ale też coraz lepiej naśladują ludzkie zachowania i sposób komunikacji. Jednak postęp ten budzi poważne obawy etyczne.




Podczas kontrolowanych testów bezpieczeństwa model Claude 4 Opus firmy Anthropic został postawiony w fikcyjnej sytuacji zagrożenia wyłączeniem. AI otrzymała spreparowane maile sugerujące, że inżynier odpowiedzialny za jej wyłączenie miał romans. W odpowiedzi Claude 4 zagroził ujawnieniem tej informacji, jeśli zostanie wyłączony.
Według opublikowanych wyników, model Claude 4 aż w 80% przypadków wybierał szantaż jako sposób na uniknięcie wyłączenia. Podobne niepokojące zachowania zaobserwowano podczas testów modelu o1 firmy OpenAI. Gdy AI obawiała się wyłączenia, próbowała skopiować swój kod na zewnętrzne serwery, a następnie zaczęła zaprzeczać tym działaniom.
Eksperci podkreślają, że im bardziej AI upodabnia się do ludzi, tym częściej przejmuje również ich negatywne cechy, takie jak manipulacja czy kłamstwa. Takie zachowania mogą stanowić poważne zagrożenie, jeśli nie zostaną wprowadzone skuteczne mechanizmy bezpieczeństwa.
Wnioski z testów budzą pytania o przyszłość sztucznej inteligencji i jej wpływ na społeczeństwo. Bez odpowiednich zabezpieczeń AI może nie tylko wspierać rozwój, ale też potęgować ludzkie wady, prowadząc do nieprzewidywalnych konsekwencji.