OpenAI twierdzi, że AI kłamie z prostej przyczyny. To nie błąd, a... celowe oszustwo?

OpenAI zaskakuje nowym, przełomowym raportem. Naukowcy związani z gigantem AI, we współpracy z ekspertami z Georgia Tech, twierdzą, że problem tzw. "halucynacji", czyli podawania przez sztuczną inteligencję fałszywych informacji, nie jest tajemniczym błędem technicznym. To wina... sposobu, w jaki trenujemy i oceniamy modele językowe
Badanie opublikowane 4 września ujawnia, że obecne systemy oceny w zasadzie "uczą" modele blefować, zamiast przyznawać się do niewiedzy. Halucynacje nie są więc defektem, ale wynikiem celowego uczenia AI, aby zgadywało zamiast szczerze mówić "nie wiem".




Naukowcy z OpenAI, Adam Tauman Kalai, Ofir Nachum, Edwin Zhang i Santosh Vempala, pokazują, że nawet z idealnymi danymi treningowymi, błędy są nieuniknione, bo wynikają ze statystycznego procesu. Modele "halucynują" z częstotliwością, która odpowiada liczbie jednorazowych informacji w danych. Na dowód, przetestowali wiodące modele na prostym pytaniu o datę urodzin współautora badania, Kalai'ego. Mimo prośby o odpowiedź "tylko, jeśli znana", DeepSeek-V3, ChatGPT i inne modele podały aż trzy różne, błędne daty.
Dlaczego tak się dzieje? Badanie wskazuje na problem zero-jedynkowej punktacji, która dominuje w benchmarkach. Taki system równo karze za błędną odpowiedź i za brak odpowiedzi, co zmusza modele do zgadywania. Naukowcy porównują to do ucznia, który w teście wielokrotnego wyboru strzela, aby zdobyć chociaż punkt.
OpenAI proponuje rewolucyjne rozwiązanie: zmienić system oceniania na taki, który nagradza AI za przyznanie się do niewiedzy. To wymaga zmian w całej branży, ale może sprawić, że sztuczna inteligencja będzie bardziej godna zaufania.