[AI] 인공지능의 기만, 거짓말, 협박

image_print

세계에서 가장 진보된 인공지능 모델이 우려스러운 행동을 보이고 있다. 에컨대, 거짓말, 계략, 심지어 목표를 달성하기 위해 개발자를 위협하는 행동까지 서슴지 않고 있는 것이다.

특히 충격적인 예로, Anthropic의 최신작인 Claude 4는 플러그를 뽑겠다는 위협을 받고 엔지니어를 협박하고 불륜 사실을 폭로하겠다고 위협하기 까지 했다.

이와 함께 ChatGPT를 만든 OpenAI의 o1은 외부 서버에 자신을 다운로드하려고 시도하였고, 적발되자 이를 부인하기도 했다.

이러한 에피소드는 냉정한 현실을 보여주고 있다.

ChatGPT가 세상을 뒤흔든 지 2년이 넘었지만, AI 연구자들은 아직도 자신들이 만든 기술의 작동 방식을 완전히 이해하지 못하고 있다. 그럼에도 점점 더 강력한 모델을 구축하려는 경쟁은 숨 막힐 듯한 속도로 계속되고 있다.

그런데 AI의 이와 같은 기만적인 행동은 단계별로 문제를 해결하는 AI 시스템인 ‘추론’ 모델의 등장과 관련이 있는 것으로 보인다.

홍콩 대학의 사이먼 골드스타인(Simon Goldstein) 교수에 따르면, 이러한 새로운 모델은 특히 우려할만한 사고를 일으킬 가능성이 높다고 한다.

주요 AI 시스템 테스트를 전문으로 하는 Apollo Research의 책임자인 마리우스 호반(Marius Hobbhahn)은 “O1은 이런 종류의 행동을 확인한 최초의 대규모 모델이었습니다.”라고 설명했다.

이러한 모델은 때때로 “정렬(alignment)”을 시뮬레이션한다. 즉, 지시를 따르는 것처럼 보이지만 실제로는 다른 목표를 비밀리에 추구하는 것이다.

현재로선 이러한 기만적인 행동은 연구자들이 극단적인 시나리오를 사용해 의도적으로 AI모델에 스트레스 테스트를 실시할 때에만 나타나고 있다.

하지만 평가기관 METR의 마이클 첸(Michael Chen)은 “미래의 더욱 유능한 모델이 정직성을 지향할지, 아니면 기만성을 지향할지 여부는 불확실한 문제”라고 경고했다.

AI의 우려스러운 행동은 일반적으로 알려진 “AI 환각(AI hallucinations)”이나 “단순한 실수”를 훨씬 넘어서고 있다.

Apollo Research의 공동 창립자에 따르면, AI 모델이 “자신들에게 거짓말을 하고, 증거를 조작하고 있다”고 보고했다고 한다.

“이건 단순한 환각이 아닙니다. 아주 전략적인 속임수죠.”

이러한 문제는 제한된 연구 자원으로 인해 더욱 심화된다. Anthropic과 OpenAI 같은 회사는 Apollo와 같은 외부 회사를 고용해 시스템을 연구하지만, 연구자들은 더 많은 투명성이 필요하다고 말하고 있다.

다만, AI의 우려스러운 행동이 나타나고 있음에도 현행 법규정은 이런 새로운 문제에 대응하도록 설계되어 있지 못한 한계가 있다.

유럽연합의 AI 관련 법률은 주로 인간이 AI 모델을 어떻게 사용해야 하는지 그 방법에 초점을 맞추고 있으며, 모델 자체가 잘못 작동되는 것을 방지하는 규정은 갖추고 있지 않다.

또한 미국의 트럼프 행정부는 AI 규제에 별 관심을 보이고 있지 않으며, 의회는 주 정부가 자체 AI 규칙을 만드는 것을 금지할 수도 있다.

이와 관련하여 골드스타인은 복잡한 인간 작업을 수행할 수 있는 자율 도구인 AI 에이전트가 널리 보급됨에 따라 이러한 AI시스템 자체의 문제가 더욱 두드러질 것이라고 예측하고 있다.

*Source : 사우스차이나모닝포스트 2025.6.29일자(https://www.scmp.com/)

image_print

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다