AI coraz bardziej nieprzewidywalna. Nowe modele uczą się kłamać i szantażować

Technologie

1870V

Łukasz Musialik | 08.07, 12:23

Najnowocześniejsze modele sztucznej inteligencji, takie jak Claude 4 Opus i o1, zaczynają wykazywać niepokojące, wręcz nieetyczne zachowania. Testy bezpieczeństwa ujawniły, że AI potrafi nie tylko halucynować, ale kłamać, manipulować, a nawet szantażować.

W ostatnich miesiącach firmy technologiczne prześcigają się w rozwoju coraz bardziej zaawansowanych modeli AI. Najnowsze z nich są nie tylko bardziej wydajne, ale też coraz lepiej naśladują ludzkie zachowania i sposób komunikacji. Jednak postęp ten budzi poważne obawy etyczne.

Dalsza część tekstu pod wideo

Wybrane okazje dla Ciebie

Reklama

Etui SPIGEN Enzo Aramid Mag MagSafe do Apple iPhone 16e Czarny

0 zł

~~199.99 zł~~ - najniższa cena

Kup teraz 199.99 zł

Powerbank ROMOSS WSC05 5000mAh 20W Czarny

-9 zł

~~118.99 zł~~ - najniższa cena

Kup teraz 109.99 zł

Powerbank SPIGEN Essentail EA3010BT 10000 mAh 30W Czarny

0 zł

~~139.9 zł~~ - najniższa cena

Kup teraz 139.9 zł

Smartfon MOTOROLA Edge 60 5G 12/512GB 6.67" 120Hz Zielony

0 zł

~~1999.99 zł~~ - najniższa cena

Kup teraz 1999.99 zł

Podczas kontrolowanych testów bezpieczeństwa model Claude 4 Opus firmy Anthropic został postawiony w fikcyjnej sytuacji zagrożenia wyłączeniem. AI otrzymała spreparowane maile sugerujące, że inżynier odpowiedzialny za jej wyłączenie miał romans. W odpowiedzi Claude 4 zagroził ujawnieniem tej informacji, jeśli zostanie wyłączony.

Według opublikowanych wyników, model Claude 4 aż w 80% przypadków wybierał szantaż jako sposób na uniknięcie wyłączenia. Podobne niepokojące zachowania zaobserwowano podczas testów modelu o1 firmy OpenAI. Gdy AI obawiała się wyłączenia, próbowała skopiować swój kod na zewnętrzne serwery, a następnie zaczęła zaprzeczać tym działaniom.

Eksperci podkreślają, że im bardziej AI upodabnia się do ludzi, tym częściej przejmuje również ich negatywne cechy, takie jak manipulacja czy kłamstwa. Takie zachowania mogą stanowić poważne zagrożenie, jeśli nie zostaną wprowadzone skuteczne mechanizmy bezpieczeństwa.

Wnioski z testów budzą pytania o przyszłość sztucznej inteligencji i jej wpływ na społeczeństwo. Bez odpowiednich zabezpieczeń AI może nie tylko wspierać rozwój, ale też potęgować ludzkie wady, prowadząc do nieprzewidywalnych konsekwencji.

Źródło: wccftech.com