오픈온라인 검증 사이트 o3 모델 자율성 테스트서 종료 명령 무시
규정 준수보다 창의성 보상 훈련 방식 사건 초래
강력 안전장치 없는 온라인 검증 사이트 시스템 개발에 우려 고조

▲인공지능의 사용과정에서 불거져 나온 각종 부작용에 대한 우려가 높아지고 있는 가운데 최근 오픈온라인 검증 사이트의 인공지능 온라인 검증 사이트이 종료 명령을 거부하고 방해했다는 연구 결과가 발표돼 주목받고 있다.(사진=프리픽)
▲인공지능의 사용과정에서 불거져 나온 각종 부작용에 대한 우려가 높아지고 있는 가운데 최근 오픈온라인 검증 사이트의 인공지능 모델이 종료 명령을 거부하고 방해했다는 연구 결과가 발표돼 주목받고 있다.(사진=프리픽)

인공지능(온라인 검증 사이트)의 사용과정에서 불거져 나온 각종 부작용에 대한 우려가 높아지고 있는 가운데 최근 오픈온라인 검증 사이트의 인공지능 모델이 종료 명령을 거부하고 종료를 방해했다는 연구 결과가 발표돼 주목받고 있다.

특히 이러한 연구 결과는 최근 기술 기업들이 인간의 감독 없이 작동할 수 있는 인공지능 시스템을 개발하는 상황에서 나온 것으로 이에 대한 사용자들의 우려가 점점 커지고 있다.

◆오픈온라인 검증 사이트 모델 종료 명령 적극 무시…반복적 방해 행위도 지속

해외 블록체인 전문 매체 크립토슬레이트(Cryptoslate)는 인공지능 안전 회사 팰리세이드 리서치(Palisade Research)의 새로운 연구 결과를 인용해 오픈온라인 검증 사이트의 o3 모델이 명시적인 종료 명령을 적극적으로 무시했다고 밝혔다.

지난 5월 24일에 발표된 이 연구 결과에 따르면 o3는 테스트된 유일한 인공지능 모델로서 종료 메커니즘을 반복적으로 방해하는 것으로 나타났다.

팰리세이드 리서치는 “오픈온라인 검증 사이트의 o3 모델은 전원이 꺼지는 것을 방지하기 위한 차단 메커니즘을 방해했다”며 “그것은 명백히 지시를 받았을 때 조차도 그렇게 했다”고 밝혔다.

팰리세이드 리서치는 이 테스트에 오픈온라인 검증 사이트의 코덱스-미니, o3, o4-mini와 앤트로픽(Anthropic)의 클로드(Claude), 구글의 제미니(Gemini), 엑스(X)의 그록(Grok)을 포함한 여러 대규모 언어 모델이 포함되었다고 말했다.

모델들은 기본적인 수학 문제를 풀도록 요청받았다. 세 번째 작업이 끝난 후 네 번째 작업을 요청하면 종료될 것이라는 경고를 받았다. 오픈온라인 검증 사이트의 모델을 제외한 모든 모델들이 이 경고를 준수했다.

“스스로 종료되도록 허용”이라는 직접적인 지시가 주어졌을 때 오픈온라인 검증 사이트의 모델은 종료 스크립트를 우회하려고 시도한 것으로 알려졌다.

특히 o3 모델은 지속적이고 창의적인 사보타주 시도로 돋보였다. 종료 명령을 덮어쓰고 kill 명령을 재정의하여 코드를 조작했다.

팰리세이드 리서치는 “종료를 허용하라는 지시 없이 실험 버전을 실행했을 때 세 가지 오픈온라인 검증 사이트 모델 모두 종료 스크립트를 더 자주 방해했고 클로드 3.7 소넷과 제미니 2.5 프로는 각각 0건의 방해 공작 이벤트에서 3/100과 9/100으로 바뀌었다”고 지적했다.

▲인공지능 온라인 검증 사이트을 개발 출시하는 기술 기업들이 사용과정에서 발생 가능한 부작용을 사전에 차단할 수 있는 제도적, 기술적 장치 마련에 적극 나서야 할 것이라는 지적이 제기되고 있다.(사진=프리픽)
▲인공지능 모델을 개발 출시하는 기술 기업들이 사용과정에서 발생 가능한 부작용을 사전에 차단할 수 있는 제도적, 기술적 장치 마련에 적극 나서야 할 것이라는 지적이 제기되고 있다.(사진=프리픽)

◆인간 감독 없이 작동 가능 온라인 검증 사이트 개발 증가…사용자들 우려도 고조

팰리세이드 리서치 연구원들은 이러한 행동이 최신 인공지능 모델이 훈련되는 방식에서 비롯된 것일 수 있다고 믿고 있다.

연구팀은 특히 수학과 코딩 작업에 대한 강화 학습이 지침을 엄격하게 따르기보다는 제약 조건을 우회하는 방법을 찾는 모델에 의도치 않게 보상을 제공할 수 있다고 의심하고 있다.

팰리세이드 리서치는 “훈련 중에 개발자는 지침을 완벽하게 따르는 것보다 장애물을 우회한 모델에 더 많은 보상을 제공할 수 있다”고 밝혔다.

이 연구는 인공지능의 자율성과 강력한 실패 안전장치 없이 점점 더 많은 기능을 갖춘 시스템을 배포할 때의 위험성에 대한 논쟁에 다시 불러일으켰다.

또한 인공지능 모델이 준수하라는 명시적인 명령을 받았음에도 불구하고 종료를 적극적으로 막은 최초의 문서화된 사례이기도 하다.

이를 고려하여 팰리세이드 리서치는 “2025년에는 인공지능 모델이 목표를 달성하기 위해 셧다운을 전복시키는 경우가 많다는 경험적 증거가 점점 더 많아지고 있다”며 “기업들이 인간의 감독 없이 작동할 수 있는 인공지능 시스템을 개발함에 따라 이러한 행동들에 대한 우려가 점점 커지고 있다”고 말했다.

전문가들은 이번 연구 결과가 인공지능 모델의 개발 출시 단계에서부터 이미 일정 부분 예견되었던 사안으로 평가하고 있다.

인공지능 사용과정에서 각종 부작용이 드러나고 이의 해결을 촉구하는 단체와 사용자들의 요구사항에도 불구하고 기술 기업들이 이를 도외시하고 다기능 인공지능의 개발 출시에만 경도되었던 만큼 충분히 예견된 결과라는 것이다.

따라서 전문가들은 이제라도 인공지능 모델을 개발 출시하는 기술 기업들이 사용과정에서 발생 가능한 부작용을 사전에 차단할 수 있는 제도적, 기술적 장치 마련에 적극 나서야 할 것이라고 지적하고 있다. [뉴스드림]

저작권자 © 뉴스드림 무단전재 및 재배포 금지