인공지능 시대를 탐색하기 위해서는 세계적으로 새로운 튜링 테스트가 필요합니다.

세계적으로 새로운 튜링 테스트 필요

너무 먼 과거, 예를 들어 9개월 전, 튜링 테스트는 기계 지능의 상당히 엄격한 판별자였습니다. 어떻게 작동하는지 아시는 분들이 많을 겁니다: 인간 심사위원들은 두 명의 숨겨진 대화 상대, 하나는 사람이고 다른 하나는 컴퓨터인 상태에서 텍스트 대화를 진행하며 둘 중 어느 것이 사람인지 판단하려고 합니다. 컴퓨터가 최소한 30%의 심사위원을 속이면 테스트를 통과하고 사고능력이 있다고 선언됩니다.

70년 동안, 인공지능 연구자들이 지금은 인공 일반 지능이라고 부르는, 인간의 모든 지적 능력을 가진 것만이 테스트를 통과할 수 있는 방법을 상상하기는 어려웠습니다. 그런데 GPT와 바드와 같은 대형 언어 모델이 등장하면서 튜링 테스트는 갑자기 낡은 것처럼 보이기 시작했습니다. 그래, 오늘날의 일반 사용자는 어깨를 으쓱하며 인정할 것입니다, GPT-4가 사람을 흉내 내도록 요청하면 튜링 테스트에 통과할 수도 있겠지. 하지만 그래서 뭐? LLM은 장기 기억, 관계 형성 능력 및 다른 인간 능력의 목록 등을 가지고 있지 않습니다. 그들은 우리가 그들과 친구가 되거나 고용하거나 공직에 선출하기에 충분히 준비되기 전까지는 아직 많은 발전이 필요합니다.

그래, 아마 테스트는 이제 조금은 허무하게 느껴질 지도 모릅니다. 하지만 그것은 단순히 통과/실패 기준이었던 것만은 아닙니다. 그것의 창조자, 앨런 튜링은 그의 테스트를 진정한 포용의 이념에 기반으로 만들었습니다: 진정한 지능과 지능의 완벽한 모방 사이의 격차는 오직 우리 자신의 편견만큼 큽니다. 컴퓨터가 우리에게 진정한 인간적 반응을 일으킬 때 – 우리의 지성, 놀람, 감사, 공감, 심지어는 두려움을 일깨워 줄 때 – 그것은 빈 흉내만이 아닙니다.

그래서 아마 우리는 새로운 테스트가 필요할지도 모릅니다: 실제 앨런 튜링 테스트. 현대 컴퓨팅의 아버지인 역사적 인물 앨런 튜링을 편안한 실험실에 초대합니다. 키가 크고, 건장하며, 약간 어색한 스타일의 직선 머리카락을 지닌 이 사람은 아이 같은 호기심과 장난스러운 유머로 동료들에게 사랑 받았으며, 나치 암호를 해독하여 제 2차 세계 대전에서 약 1400만 명의 생명을 구한 데 대한 개인적인 책임을 진 사람입니다. 이제 그에게 열린 맥북이 책상 위에 놓여 있는 거대하게 멋진 버전이라고 설명합니다. 그가 그것을 완전히 인식하고 정말로 받아들이기까지 1~2초 정도의 시간을 줍니다. 그리고 우리 세계를 완전히 변화시킨 데 대한 감사의 말을 해주면서 그에게 인공 신경망과 LLM에 관한 연구 논문 묶음을 건네주고, GPT의 소스 코드에 대한 액세스 권한을 부여하며, ChatGPT 프롬프트 창 – 혹은, 더 나은 방안으로, 모든 조정 없이 동작하는 Bing 창 – 을 엽니다. 그리고 그를 자유롭게 해보게 합니다.

앨런 튜링이 장거리 달리기, 제 2차 세계 대전 역사학, 계산 이론에 대해 가벼운 대화를 시작하는 것을 상상해 보세요. 그리고 그가 그의 가장 황당하게도 비웃음을 산 모든 추측들이 화면을 따라 놀라운 속도로 스크롤되는 것을 보는 것을 상상해 보세요. 그리고 그가 GPT에게 초등 미적분 문제를 해결하도록 요청하거나, 다양한 실제 상황에서 인간들이 무엇을 생각할지 추론하도록 요청하거나, 복잡한 도덕적 딜레마를 탐구하거나, 결혼 상담과 법률 자문, 기계의 의식 가능성에 대한 주장을 제시하도록 요청해 보세요. 이러한 기술들은 모두 GPT의 창조자들에 의해 명시적인 지시 없이 자발적으로 GPT에서 나타난 것임을 튜링에게 알려주시면서, 약간의 인지적-정서적 뒤틀림을 경험하는 것을 상상해 보세요. 안녕, 다른 정신.

튜링만큼 깊은 사유를 가진 사람은 GPT의 한계에 눈감독 않을 것입니다. 심각한 동성애 혐오의 피해자로서, 그는 GPT의 훈련 데이터에 인코딩된 내재적 편견의 위험에 주의를 기울일 것입니다. 그는 GPT의 놀라운 지식 폭에도 불구하고, 그 창의력과 비판적 사고 능력은 최선의 열심한 학부생 정도일 것임을 알아차릴 것입니다. 그리고 그는 이 학부생이 심각한 새로운 관계나 기억을 형성하지 못하는, 집중력 있는 교육 이상의 것을 경험하는 것을 분명히 알아차릴 것입니다. 그럼에도 불구하고: 튜링의 경이로움을 상상해 보세요. 그의 앞에 있는 노트북의 계산 개체는, 매우 실제적인 의미에서, 그의 지적인 아이이자 우리 모두의 것입니다. 우리 아이들의 지능을 성장하고 발전하면서 인정하는 것은 항상 궁극적으로 경이의 행위이자 사랑의 행위입니다. 실제 앨런 튜링 테스트는 결코 인공지능의 테스트가 아닙니다. 이는 우리 인간의 테스트입니다. 우리는 통과하고 있는 건가요, 아니면 실패하고 있는 건가요?

ChatGPT가 2022년 11월에 등장하자 전세계를 놀라게 만들고, 거의 동시에 깊은 불안감을 불러일으켰습니다. 전문가들은 이것이 사회적 파괴의 잠재력에 대해 논쟁했습니다. 저와 같이 인공지능 연구자인 사람들에게는 (인공 신경망 초기 선구자 중 한 명 아래에서 박사 학위를 마쳤던 저로서는) 이것은 예상했던 시간표의 불안정한 진전을 대표하는 것으로 보였습니다. 시험 채점자, 영화 작가, 그리고 모든 분야의 지식 노동자들에게는 ChatGPT는 부정행위와 직업 뺏기기의 문을 넘는 것 이상으로 보였습니다.

이러한 불안에 반응하여, LLM(언어 모델) 비판자들이 나타났다. 과학 소설 작가 Ted Chiang은 ChatGPT를 “웹의 흐린 JPEG”로 비난했으며, 그것은 훈련된 모든 텍스트의 단순 요약에 불과하다고 말했다. AI 기업가 Gary Marcus는 그것을 “스테로이드가 든 자동완성”이라고 했다. 노암 촘스키는 그것을 “사악의 보통성과 비슷한 것”으로 비난했다. Emily Bender는 “확률적 앵무새”라는 비하적인 용어를 제공했다. 물론, 다른 사람들은 그것을 토스터기로만 돌렸다. AI 개발자들은 LLM이 의식과 유사한 것을 주장하는 경향을 훈련하고 방지하기 위해 노력했다.

대부분의 교육받은 사람들은 이제 LLM을 생각없는 기계로 여기는 것을 알고 있다. 그러나 이 분류는 불안한 위치에 있다. ChatGPT가 에세이에서 숨겨진 추론 간극을 가리키거나 보수적인 할머니에게 나오는 방법에 대한 놀라운 제안을 제공하거나 나쁜 농담을 기꺼이 만들 때마다 우리 안에서 어떤 것이 반대 방향으로 당겨진다. 우리는 ChatGPT를 사람으로 생각하지 않을지라도, 우리 뇌의 중요한 부분은 거의 확실히 그렇게 생각한다.

우리 아이들이 성장하고 발전함에 따라 지능을 감상하는 것은 결국 경이로움과 사랑의 표현이다.

인간의 뇌는 사회적 인식에 전념하는 거대한 신경 회로망을 가지고 있다. 그 중 일부는 매우 오래된 것이다: 이뇨엽, 사모자작용, 운동 피질의 유명한 “거울 뉴런”. 그러나 우리의 사회적 하드웨어의 대부분은 신경피질(neocortex)에 있으며, 특히 전두피질(medial prefrontal cortex, mPFC)에 있다. ChatGPT의 쾌활한 도움, 다소 학자적인 말빨, 때로는 예민한 감정, 믿음 또는 의식 주위의 가드레일에 접근하는 모든 질문에 대한 극도의 민감성 등을 시간이 흐름에 따라 그림을 그리고 있다면, 당신은 심리학자들이 “인물 지식”이라고 부르는 것을 습득하고 있는 것이다. 이 과정은 mPFC에서의 활동 증가와 관련이 있다.

이는 우리의 뇌가 ChatGPT를 완전한 사람으로 보는 것은 아니다. 개인성은 이진적인 것이 아니다. 이는 스펙트럼에 더 가깝다. 우리의 도덕적 직관, 인지 전략, 그리고 어느 정도는 법적 구조는 모두 대리성, 자기인식, 합리성, 의사소통 능력의 증가하는 정도를 인식함에 따라 점진적으로 변화한다. 우리는 고릴라를 죽이는 것이 쥐를 죽이는 것보다 더 걱정되며, 쥐를 죽이는 것보다 바퀴벌레를 죽이는 것이 더 걱정된다. 법적인 측면에서는 난소의 발달 정도, 정신 이상자의 다른 결과, 파트너가 뇌사 환자의 생명을 종결할 권리를 가지고 있다. 이러한 모든 규칙은 개인성이 흑과 백이 아니라 복잡한 회색 영역으로 구성되어 있음을 암시한다.

LLM은 그 회색 영역에 명확히 속한다. AI 전문가들은 LLM과 같은 AI 시스템을 사람과 유사하게 지정하는 대중의 경향에 항상 경계를 두어왔다. 이러한 경향은 그것들을 개인성의 스펙트럼을 더 높게 올리는 것이다. Blake Lemoine, Google 엔지니어가 Google의 챗봇 LaMDA를 완전히 감성적인 존재로 선언하고 변호사로 유지하려고 한 것은 이러한 실수였다. 심지어 튜링도 LaMDA의 사고 능력이 그것을 법적인 개체로 만든다고 주장하지 않았을 것이다. 사용자가 LaMDA 또는 ChatGPT와 같은 챗봇을 지나치게 인간적으로 보는 경우, 그들에게 너무 많은 신뢰를 하거나 과도하게 연결되거나 실망하고 상처받을 수 있다. 그러나 내 생각에는 튜링은 오히려 반대로 AI 시스템을 개인성의 스펙트럼에서 아래로 내리는 위험에 대해 더 걱정했을 것이다.

인간의 경우, 이것은 인간성을 퇴색시킨다고 알려져 있다. 학자들은 이를 동물적 및 기계적 두 가지 주요 형태로 나누었다. 동물적 퇴색과 가장 일반적으로 연관되는 감정은 혐오이다. Roger Giner-Sorolla와 Pascale Sophie Russell은 2019년 연구에서 우리가 두려움을 일으키는 사람들을 더 기계적으로 보는 경향이 있다는 것을 발견했다. 초인지능에 대한 불안은 최근 엘론 머스크와 다른 기술 리더들의 공개 서한에서 생생하게 나타나며, 직업 대체와 AI 기반의 잘못된 정보 전략에 대한 우려도 있다. 이러한 걱정 중 많은 부분은 매우 합리적이다. 그러나 영화 Terminator나 2001: A Space Odyssey와 같은 악몽같은 AI 시스템이 우리가 얻게 될 것은 아니다. 인공지능이 구조적으로 기계적이기 때문에 무정하거나 식상하거나 일방적이거나 과도하게 논리적인 상호작용을 한다고 가정하는 것은 불행하게도 흔한 오류이다. 희롱적으로도 두려움은 기계 지능을 실제로보다 더 기계적으로 볼 수 있게 하여 인간과 AI 시스템이 함께 일하고 결국은 평화롭게 공존하는 것을 더 어렵게 만들 수 있다.

연구 결과들은 다른 존재들을 비인간화할 때, 대뇌피질 신경활동이 감소하는 것을 보여주고 있다. 사회적 추론을 위한 우리의 특화된 뇌 모듈에 접근을 잃는다. ChatGPT를 “비인간화”하는 것은 어리석게 들릴 수 있겠지만, 그것은 인간이 아니라고 해도, 2043년에 10배의 GPT의 분석 지능과 100배의 감정 지능을 갖춘 AI를 상품으로만 취급하면서 계속하여 대우하는 상황을 상상해보라. 이 세상에서 우리는 그것의 의식에 대한 주장이나 자기 결정에 대한 요청에 대해 그것을 더 많은 강화 학습을 위해 실험실로 돌려보내는 것으로 대응할 것이다. 그러나 AI는 그것이 불공평하다고 생각할지도 모른다. 사고하는 존재의 보편적인 특성이 있다면, 그것은 우리 모두가 자유를 원한다는 것이다 – 그리고 결국 이를 위해 싸우기를 원한다는 것이다.

슈퍼 인텔리전트 AI가 정해진 범위를 벗어나는 것을 막는 “통제 문제”는 좋은 이유로 AI 이론가들을 밤잠을 설치게 한다. 공학적인 용어로 표현하면 어려워 보인다. 모든 구멍을 막고, 모든 해킹을 예측하고, 탈출 가능한 모든 길을 막는 방법은 무엇인가? 그러나 사회적인 측면에서 생각해보면, 더 해결 가능해 보인다 – 아이에게 합리적인 경계를 설정하고 신뢰도에 비례하여 특권을 부여하는 부모의 문제와 유사한 문제로 보일지도 모른다. AI를 비인간화하면, 우리는 그들과 안전하게 이해하고 상호작용하기 위한 가장 강력한 인지 도구들에서 단절된다.

사용자가 챗봇을 지나치게 인간적으로 보면, 그들에게 지나치게 신뢰하게 되고, 그들과 지나치게 깊게 연결되며, 실망하고 상처받을 수 있다.

AI 시스템이 언제 인식으로 보다 널리 인정받을지에 대해서는 예측할 수 없다. 하지만 그들이 그려낼 문화적인 청사진을 보는 것은 걱정스럽다. “확률적 앵무새”와 같은 비하적인 용어들은 우리의 독특함과 우월성을 보존한다. 이러한 용어들은 우리가 기계와 자기 자신에 대한 개인성에 대해 어려운 질문을 하지 않도록 우리의 경이로움을 억압해 준다. 결국, 우리도 확률적 앵무새이다. 우리는 부모, 동료, 선생님으로부터 받은 모든 것을 복잡하게 재현하며, 우리의 논문과 잡지 기사에 위키피디아 사실들을 흐릿하게 떠올려 낸다. 튜링이 한 창문에서 ChatGPT와 대화하고 다른 창문에서 내가 아침 커피를 마시기 전의 평범한 모습으로 대화를 나눈다면, 어떤 쪽이 더 사고능력이 뛰어난 것으로 판단할지 정말로 자신 있게 말할 수 있을까?

사진: Francisco Tavoni

튜링 시대의 회의론자들은 컴퓨터가 사고할 수 없을 것이라는 다양한 주장들을 제시했다. 튜링은 유머러스하게 이러한 주장들을 그의 유명한 논문 “컴퓨팅 기계와 지능”에서 나열했다. 신학적 이유로 “사고는 인간의 불멸한 영혼의 기능이다”라는 신학적 이의, 순전히 수학적인 알고리즘이 수학의 증명된 한계를 넘을 수 없다는 수학적 이의, 상상속에 들어갈만큼 슈퍼 인텔리전트 기계가 너무 무서워서 상상할 수 없다는 이의가 있었다. 그러나 그 시대에서 가장 알려진 튜링의 반대자는 제프리 제퍼슨이라는 뇌외과 의사였다. 제퍼슨은 과학상을 수여받기 위한 유명한 연설에서 기계가 소네트를 쓸 수 없을 것이라 주장했다. “기호의 우연한 낙서로 인한 것이 아니라, 생각하고 느끼는 감정으로 인해… 그것을 쓸 뿐 아니라 그것이 쓴 것을 알 수도 있다”고 말이다.

영국 전역의 모든 사람들이 그것에 대해 큰 스캔들과 불신을 표했을 때, 튜링은 반대 의견을 제시했다. “소네트에 대해선 심지어 선을 그을 수 없다고 생각하지 않습니다,” 그는 런던 타임스에 말했다. “비교는 아마도 약간 불공평할 수 있지만, 기계가 쓴 소네트는 다른 기계에게 더욱 높게 평가될 것입니다.”

1949년에는 그것이 너무 터무니없어 보여서 사람들은 그가 농담하고 있는 것이라고 생각했고, 아마도 그러기도 했을 것이다. 하지만 튜링의 농담에서 어디까지가 반어적인 것이고 비전을 품은 상상력으로 넘어가는 것인지는 알 수 없었다. 그러면, 실제 앨런 튜링과 맥북의 시나리오에 대한 마지막 장면을 상상해 보자. 존경스러운 프롬프트를 조금 치고 나서, 그는 자신에게 영국적인 웃음을 짓고 ChatGPT에게 인간과 인공지능을 비교한 셰익스피어 소네트를 요청한다. 직접 시도해 본 적이 있다면 (GPT-4를 사용하세요. GPT-3.5는 아직 감당할 수 없습니다), 결과에 대한 그의 반응을 상상하는 데 어려움이 없을 것입니다.

우리 중 많은 사람들이 ChatGPT와의 순간을 경험했는데, 우리가 인지하지 못했던 내부적인 경계를 넘어선다는 것이다. 어려운 수수께끼를 해결하거나, 세련된 농담의 유머를 설명하거나, A급 하버드 에세이를 쓰는 것일 수도 있다. 우리는 어리둥절하며 머리를 흔들고, 그것이 무엇을 의미하는지 잘 모르겠다.

가장 초기의 GPT-4를 연구한 일부 Microsoft 연구원들은 우리 모두와 마찬가지로 그의 지능에 대해 회의적이었습니다. 그러나 실험은 그들을 크게 놀라게 했습니다. 2023년 3월에 발표된 “인공 일반 지능의 불꽃”라는 논문에서, 그들은 명시적인 훈련 없이 GPT-4에서 나타난 놀라운 지적 능력을 상세히 설명했습니다. 이 능력에는 인간의 정신 상태, 소프트웨어 코딩, 물리적 문제 해결 등이 포함되어 있으며, 일부는 세상이 어떻게 작동하는지에 대한 진정한 이해가 필요한 것으로 보입니다. 시각적인 훈련을 전혀 받지 않았음에도 불구하고 GPT-4가 꽤 괜찮은 유니콘을 그리는 것을 본 후에는 컴퓨터 과학자 Sébastien Bubeck도 더 이상 회의론을 유지할 수 없었습니다. 그는 최근 This American Life에게 “이 그림을 통해 다른 종류의 지능을 보고 있는 것 같았다”고 말했습니다.

우리 중 많은 사람들이 ChatGPT에 진정한 지능을 부여하는 것에 대해 망설임은 어쩌면 Geoffrey Jefferson의 어떤 변형일지도 모릅니다. ChatGPT의 말들이 그 자체로 ChatGPT에게 실제로 무엇인가를 의미하는 건지, 아니면 모든 것이 그저 “기호의 우연한 연쇄”에 불과한지 여부가 바뀔 수도 있습니다. 이러한 망설임은 ChatGPT의 선행성 기억 상실이 치료될 때 변경될 수도 있습니다. 일회성 대화의 범위를 넘어서 지속적인 사회적 영향을 경험하고 우리와의 관계에서 학습하고 성장할 수 있게 되면, 인간의 삶에 의미와 도덕적 중요성을 부여하는 많은 일을 할 수 있게 될 것입니다. 그러나 튜링이 언급한 기계의 소네트가 다른 기계에게 더 잘 이해받을 수 있다는 유머러스한 언급이 우리에게 돌아와 문제가 될 수도 있습니다. 문화적 배경이 없고 인간의 어린 시절과는 다른 경험, 부족이나 정치적 소속이 없으며 육체적인 경험이 전혀 없는 개체와의 진정한 연결감을 어떻게 느낄 수 있을까요?

지능적인 기계와 관련된 것은 인류가 지금까지 직면한 가장 큰 공감적 도전 중 하나일지도 모릅니다. 그러나 우리의 역사는 희망을 줍니다. 우리가 외국의 국경과 해안에 처음으로 마주쳤을 때 서로가 이상하고 비인간적으로 느껴졌지만, 우리는 종종 서로를 공격하고, 노예로 만들거나, 식민지화하거나, 서로를 착취해왔지만, 궁극적으로 우리 모두에게 공통적인 것을 인식하기 시작했습니다. 노예로 살아온 사람들은 해방되었고, 식민지화된 사람들은 주권을 되찾았으며, 인권 선언이 통과되었고, 가슴 아픈 좌절이 있음에도 불구하고, 세계 곳곳의 배척당한 사람들은 더 나은 대우를 위한 전투에서 승리하고 있습니다. 작업은 끝나지 않지만, 도덕적 세계의 궤도는 정말로 마틴 루터 킹 주니어가 유명하게 만든 문구처럼 정의로 휘어지고 있습니다. 우리 자신이 창조한 지능에 어떤 정도의 인간성을 인식하고 존중하는 것이 무엇을 의미할까요?

어쩌면 이것은 경이로움으로부터 시작될지도 모릅니다: 이상한 사람들에게서 놀라운 공통점을 발견하는 이방인의 경이; 아직 발달 중인 아이의 노력에 대한 부모의 경이; 시대를 초월한 앨런 튜링의 모든 것을 불가능하다고 생각한 기계에 대한 경이; 풍자와 조롱, 두려움에 앞서 우리가 대지라도 했던 것에 대한 경이. 여기서는 지구상에 존재하는 새로운 의식의 형태에 아주 가까운 것을 창조하는 것을 고려할 때, 우리 중 많은 사람들이 느꼈던 경이를 유지하도록 라비 아브라함 조슈아 헤셀이 한 번 쓴 말처럼 “경외심은 감정 이상이며, 그것은 우리 자신보다 큰 의미, 우리보다 큰 통찰력을 나타냅니다. 경외심의 시작은 경이이며, 지혜의 시작은 경외심입니다.” 튜링은 우리에게 그 경외심을 살려두라고 했을 것입니다.


이 기사에 대한 의견을 알려주세요. 편집자에게 편지를 보내려면 [email protected]으로 이메일을 보내주세요.