ChatGPT는 소프트웨어 엔지니어링 질문의 절반 이상을 잘못 대답합니다.

ChatGPT는 소프트웨어 엔지니어링 질문의 대다수를 잘못 대답합니다.

ChatGPT의 어떤 시간에든 어떤 질문에 대한 대화식 답변을 제공하는 능력은 정보 요구에 편리한 도구로서의 챗봇을 만듭니다. 그러나 편리함에도 불구하고, 최신 연구에 따르면 소프트웨어 공학 프롬프트에 ChatGPT를 사용하고 싶지 않을 수도 있습니다.

AI 챗봇의 등장 이전에는 Stack Overflow가 프로그래머들이 프로젝트에 대한 조언이 필요할 때 찾는 대표적인 자원이었습니다. 이는 ChatGPT와 유사한 질문 및 답변 모델을 가지고 있었습니다.

또한: OpenAI의 새로운 AI 교육 웹 크롤러가 데이터를 수집하지 못하도록 차단하는 방법

하지만 Stack Overflow는 질문에 대한 답변을 기다려야 하지만 ChatGPT는 그렇지 않습니다.

결과적으로 많은 소프트웨어 엔지니어와 프로그래머들은 자신의 질문에 ChatGPT를 사용하게 되었습니다. 그러나 해당 유형의 프롬프트에 대한 ChatGPT의 효과적인 답변 여부를 보여주는 데이터가 없었기 때문에 퍼듀 대학교의 새로운 연구가 이러한 딜레마에 대해 조사했습니다.

소프트웨어 공학 프롬프트에 대한 ChatGPT의 효율성을 확인하기 위해 연구진은 ChatGPT에게 517개의 Stack Overflow 질문을 제시하고 그 답변의 정확성과 품질을 조사했습니다.

또한: 코드 작성을 위해 ChatGPT를 사용하는 방법

결과는 512개의 질문 중 259개(52%)의 ChatGPT 답변이 잘못되었고, 248개(48%)는 정확한 답변이었습니다. 게다가 77%의 답변은 길고 상세한 내용이었습니다.

답변의 상당한 부정확성에도 불구하고, 결과는 답변이 65%의 시간에 걸쳐 포괄적이며 질문의 모든 측면을 다루었음을 보여줍니다.

ChatGPT 답변의 품질을 더 자세히 분석하기 위해 연구진은 프로그래밍 전문성의 다양한 수준을 가진 12명의 참가자에게 그들의 의견을 요청했습니다.

또한: Microsoft의 레드 팀은 2018년부터 AI를 모니터링했습니다. 다음은 다섯 가지 큰 통찰력입니다.

참가자들은 그래프에서 볼 수 있듯이 다양한 범주에서 Stack Overflow의 답변을 ChatGPT의 답변보다 선호했지만, 참가자들은 ChatGPT가 생성한 잘못된 답변을 39.34%의 시간 동안 올바르게 식별하지 못했습니다.

연구에 따르면, ChatGPT가 출력하는 명료하고 상세한 답변들은 사용자가 답변의 잘못된 정보를 간과하게 만들었습니다.

“ChatGPT 답변의 포괄적이고 명료하며 인간적인 통찰력으로 인해 사용자들은 ChatGPT 답변의 잘못된 정보를 간과합니다(39.34%의 시간),” 저자들은 씁니다.

또한: ChatGPT가 기존 코드를 다시 작성하고 개선하는 방법

잘못된 정보가 퍼지는 것을 가능하게 하는 것은 모든 챗봇에 있어서 중요한 문제입니다. 또한, 낮은 정확도 점수들은 이러한 유형의 프롬프트에 ChatGPT를 사용하는 것을 재고할만한 충분한 이유가 될 수 있습니다.