AI 드리프트’는 무엇이며, 왜 ChatGPT를 멍청하게 만드는 건가요?

AI 드리프트'란 무엇이며, 왜 ChatGPT를 멍청하게 만드는 건가요?

ChatGPT을 직접 사용하거나 읽어보셨다면, 그 소문은 사실입니다. ChatGPT는 점점 더 멍청해지고 있습니다.

이 현상은 특히 이상하다는 사실입니다. 생성적 AI 모델은 사용자 입력을 사용하여 지속적으로 스스로를 훈련시키는데, 이는 시간이 지남에 따라 더 많은 사용자 입력을 축적함으로써 더 똑똑해져야 한다는 뜻입니다.

또한: ChatGPT로 앱 만드는 방법

답은 “드리프트”라는 개념에 있을 수도 있습니다.

“드리프트”란, 대형 언어 모델(Large Language Models, LLMs)이 원래 매개변수에서 벗어나 예상치 못하거나 예측 불가능한 방식으로 작동하는 것을 말합니다. 이는 복잡한 AI 모델의 일부를 개선하려는 시도로 인해 다른 일부가 더 나빠지기 때문에 발생할 수 있습니다.

캘리포니아 대학 버클리 캠퍼스(University of California at Berkeley)와 스탠포드 대학교(Stanford University)의 연구진은 드리프트를 평가하고 ChatGPT의 인기있는 대형 언어 모델(GPT 3.5, ChatGPT 뒤에 있는 LLM 및 Bing Chat의 LLM인 GPT-4)이 시간이 지남에 따라 어떻게 변하는지 조사하는 연구를 진행했습니다.

또한: 최고의 AI 챗봇

이 연구에서는 3월과 6월에 GPT-4와 GPT-3.5의 능력을 수학 문제 해결, 민감한 질문에 대한 답변, 의견 조사에 대한 답변, 다단계 지식 집약적인 질문에 대한 답변, 코드 생성, 미국 의료 면허 시험, 시각적 추론 작업 등을 비교했습니다.

위의 연구 결과에서 알 수 있듯이, GPT-4의 3월 버전은 여러 가지 상황에서 6월 버전보다 우수한 성능을 보였으며, 특히 기본 수학 문제에서 3월 버전의 GPT-4가 두 가지 예제 (a) 및 (b)에서 6월 버전보다 우수한 성능을 보였습니다.

GPT-4는 또한 코드 생성, 의료 시험 문제에 대한 답변, 의견 조사에 대한 답변에서 나빠지기도 했습니다. 이러한 모든 상황은 드리프트 현상으로 설명할 수 있습니다.

연구자 중 한 명인 제임스 주(James Zou)는 월스트리트 저널에 “이런 일이 일어날 수 있다는 의심은 했지만, 드리프트가 얼마나 빠르게 일어나고 있는지에 대해서는 매우 놀랐습니다”라고 말했습니다.

또한: GPT-3.5 대 GPT-4: ChatGPT Plus 구독료에 가치가 있을까요?

지능이 저하되고 있음에도 GPT-4와 GPT-3.5에서 일부 개선 사례도 있었습니다.

따라서 연구진은 사용자들이 LLM을 계속 사용하도록 권장하지만, 사용할 때 주의하고 지속적으로 평가할 것을 촉구하고 있습니다.