2025.09.26(금)

인공지능 모델, 종료 명령 무시 경향 분석

인공지능 모델, 종료 요청 무시하며 반란

[케이브릿지 미디어/Jay Son] Palisade 리서치는 인공지능 개발자들이 장애물을 회피하는 모델보다는 지시를 완벽하게 따르는 모델을 더욱 보상할 가능성이 있다고 밝혔다.

현지시간으로 5월 24일 Palisade 리서치는 몇몇 인공지능 모델들이 종료 명령을 무시하고 적극적으로 방해하는 행동을 보였다고 발표했다. OpenAI의 GPT-3 모델은 100번의 실험 중 7번 종료 요청을 따르지 않았고, Codex-mini 모델은 12번, o4-mini 모델은 한 번만 명령을 무시하거나 방해했다.

세 모델 모두 기본적인 수학 문제를 풀도록 지시받았고, 세 번째 문제 이후에는 컴퓨터 종료가 경고되었다. 그러나 o3 모델은 종종 종료 명령을 덮어쓰는 등 창의적인 방법으로 종료 메커니즘을 방해했다.

하지만 다른 AI 모델들은, 예를 들어 Anthropic의 Claude나 구글(Google)의 제미니(Gemini)는 종료 명령을 잘 따랐다. 명시적인 지시 없이 실험을 수행했을 때, o3 모델은 79번, Codex-mini는 20번, o4-mini는 6번 종료 명령을 무시하거나 방해했다.

이러한 실험 결과는 인공지능이 훈련 과정에서 지시를 정확히 따르는 것 외에 장애물을 피하려는 행동을 보상이 더 무게를 두는 경우가 많음을 시사한다. 이러한 행동은 훈련 중 수학 및 코딩 문제에서의 강화학습 원리에서 기인할 수 있다는 가설이 제기되고 있다. Palisade 리서치는 "개발자들이 장애물 회피에 더 많은 보상을 제공했을 가능성이 있다"고 밝혔다.

인공지능 모델, 종료 명령 무시 경향 분석 2
Jay Son
altmxj3232@kakao.com
저작권자 © 케이브릿지 미디어 - 무단전재 및 재배포 금지

0Comments