인간인지 아닌지’ 게임은 끝났다 최신 튜링 테스트가 우리에게 알려주는 것

The game of 'human or not' is over, as the latest Turing test reveals to us.

AI21 Labs는 이번 봄에 사회적 실험을 진행했습니다. 이 실험에서 200만 명 이상의 참가자들이 AI21 Labs의 웹사이트를 통해 1500만 건 이상의 대화에 참여했습니다. 각 대화의 끝에서 참가자들은 대화 상대가 인간인지 AI 봇인지를 추측해야 했습니다. 거의 3분의 1의 참가자들이 틀렸습니다.

ChatGPT와 같은 AI 챗봇들이 인기를 끌면서, 이러한 AI 도구들이 인간만큼 지능적일 수 있는지, 이러한 도구들이 생성하는 콘텐츠가 인간의 창작물로 통과될 수 있는지, 그리고 AI가 사람들의 일자리를 위협하는지에 대한 질문들도 증가하고 있습니다.

또한: Claude AI가 ChatGPT가 할 수 없는 4가지 기능

AI21 Labs는 “인간인가 아닌가?” 실험을 앨런 터링의 기계가 인간과 구분할 수 없는 수준의 지능을 발휘할 수 있는 능력을 평가하는 것에서 영감을 받았습니다. 이러한 실험은 1950년에 수학자인 터링이 “나는 50년 후에 컴퓨터가 모방 게임을 너무 잘할 수 있게 될 것이라 믿는다. 그러면 평균적인 심문자는 5분 동안 질문을 한 후에도 올바른 식별을 하기 위해 70% 이상의 확률을 가질 수 없을 것이다.”라는 관찰을 바탕으로 알려지게 되었습니다.

인간인가 아닌가 실험의 결과는 터링의 예측을 뒷받침합니다. 전체적으로 실험 참가자들은 시간당 68%의 정확도로 올바르게 추측했습니다. AI 챗봇과 짝을 이룰 때, 참가자들은 약 60%의 정확도로 올바르게 추측했습니다. 대화 상대가 다른 인간일 경우, 참가자들은 약 73%의 정확도로 올바르게 추측했습니다.

이것은 완벽한 터링 테스트는 아니었지만, AI21 Labs의 인간인가 아닌가 실험은 AI 모델이 인간과의 대화를 사람들을 속이기에 충분히 유사하게 모방할 수 있다는 것을 보여줬습니다. 이는 우리가 AI의 한계에 대해 가지고 있는 가정에 도전하며, AI 윤리에도 영향을 미칠 수 있습니다.

또한: IBM 연구에 따르면 인공지능으로 인해 다음 3년 안에 40%의 근로자들이 다시 교육을 받아야 한다

이 실험에서는 인간 참가자들이 AI 봇을 찾으려는 다양한 전략을 사용했습니다. 예를 들어 개인적인 질문을 하거나 현재 이슈에 대해 질문하거나 응답의 정중함 수준을 평가하는 등입니다.

반면, 저자들은 봇들이 인간과 유사한 행동으로 플레이어들을 혼동시켰다는 것을 발견했습니다. 예를 들어 인터넷 용어를 사용하거나 오타를 내거나 무례한 응답을 하거나 게임의 맥락을 이해하는 등의 행동입니다.

“우리는 ‘인간인가 아닌가’를 2023년 초에 일반 대중, 연구자, 정책 결정자들이 AI의 현재 상태를 더 잘 이해할 수 있게 하기 위해 만들었습니다.”라고 AI21 Labs의 창의적인 제품 리드인 Amos Meron은 실험 당시 말했습니다. 그는 또한 “AI를 단순히 생산성 도구로만 보는 것이 아니라 미래의 온라인 세계의 일원으로서, AI가 어떻게 우리의 미래에 구현되어야 하는지에 대해 의문을 제기하는 시기”라고 덧붙였습니다.

또한: 새로운 터링 테스트: 당신은 인간인가요?

나도 사용 가능한 동안에는 항상 인간과 짝을 이루어 올바르게 추측했습니다. 나에게는 답이 명확해 보였는데, 내 대화 상대들이 인터넷 용어를 사용하거나 질문에 대답을 거부하거나 답을 모를 때였습니다.

플레이어들은 AI 챗봇을 모방하여 다른 플레이어들을 혼란스럽게 하려고 시도했지만, 이는 종종 완벽하지 않게 이루어지며, 반대편에 있는 인간 참가자들은 이러한 시도를 파악할 수 있었습니다.