신뢰도 측정 왜 모든 AI 모델에 FICO 점수가 필요한가

왜 모든 AI 모델에 FICO 점수가 필요한가?

9 out of 10 IT 리더들은 2023년 Salesforce의 “IT 현황” 연구에 따르면 생성적 AI가 곧 주류로 등장할 것이라고 말했습니다.

McKinsey 보고서에 따르면 2022년에는 조직의 50%가 AI를 사용했습니다. IDC는 글로벌 AI 지출이 2023년에만 놀라운 26.9% 증가할 것으로 예측하고 있습니다. 최근 고객 서비스 전문가 조사에서는 2020년부터 2022년까지 AI의 도입이 88% 증가했다고 밝혔습니다. 연구에 따르면 IT 리더의 86%가 생성적 AI가 가까운 미래에 조직에서 중요한 역할을 할 것이라고 믿고 있습니다.

또한: 전문가의 2/3은 AI가 자신의 기술 가치를 높일 것이라고 생각합니다

그럼에도 불구하고 IT 리더의 64%는 생성적 AI의 윤리에 대해 우려하고, 62%는 자신의 직업에 대한 영향에 대해 우려하고 있습니다. 최근 IT 리더 조사에서 생성적 AI에 대한 우려사항으로는 보안 위험 (79%), 편견 (73%), 탄소 발자국 (71%) 등이 포함되었습니다. 또 다른 보고서에 따르면 고객의 23%는 AI를 신뢰하지 않고, 56%는 중립적입니다. 이 신뢰 결핍은 기업이 AI 기반 서비스를 사용하고 제공하는 방식에 따라 양면으로 기울 수 있습니다.

McKinsey의 최신 연구에 따르면 McKinsey가 분석한 63가지 사용 사례 전체에서 생성적 AI는 연간 2.6조 달러에서 4.4조 달러에 해당하는 가치를 창출할 수 있다고 추정합니다. 비교해 보면 2021년 영국의 GDP는 3.1조 달러였습니다. 이로 인해 인공지능의 모든 영향이 15%에서 40% 증가할 것입니다. AI의 성장과 도입에 가장 큰 장애물은 신뢰입니다. 직원 기술 격차와 신뢰는 생성적 AI의 비즈니스 도입에 가장 큰 장애물입니다.

또한: 생성적 AI와 네 번째 질문: 고객과의 신뢰 구축

생성적 AI 솔루션 제공업체가 직원, 고객, 파트너, 그리고 그들이 서비스하는 커뮤니티 모두로부터 신뢰를 얻을 수 있는 방법을 더 잘 이해하기 위해, 나는 데이터 프라이버시, 고급 분석, AI, 디지털 트랜스포메이션 등에 대한 전문가인 Mobeus의 공동 창립자이자 크리에이티브 책임자인 Richie Etwaru와 흥미로운 토론을 나누었습니다. Etwaru는 그의 이름 아래로 여러 특허, 책, TEDx 강연 및 산업 최초의 혁신을 보유하고 있습니다.

생성적 AI와 그 이상에 사용되는 기본 모델로부터 어떻게 신뢰를 구축할 수 있을까요? Etwaru가 제안한 내용은 다음과 같습니다.

1962년 Arthur C. Clarke의 “Profiles of the Future: An Inquiry into the Limits of the Possible”라는 책에서 쓴 “어떤 충분히 발전된 기술은 마법과 구별할 수 없다”는 말은 시간에 견딜 만큼 강력합니다.

60년이 지난 2022년 11월 20일, OpenAI는 ChatGPT라는 기술적인 경이로움을 선보였습니다. 이는 마법이 아닌, 당혹스러움을 불러일으키는 정도로 진보한 기술이었습니다. 마법은 우리가 사로잡히고 경외감을 느낄 때 우리를 기쁘게 합니다. 하지만 우리가 이해하기 어려운 경계를 넘어설 때 우리를 위협적으로 느끼게 합니다. 마법이 너무 강력해 보일 때, 우리는 편안한 지역에서 벗어나 어려운 차원으로 이동하게 됩니다. 불안함은 논리적이거나 과학적인 설명을 우회하는 현상에 직면할 때 생기는 것입니다.

또한: 최고의 AI 챗봇: ChatGPT와 주목할 만한 대안들 기술적인 현장에서 ChatGPT와 그 동료들 – 상호작용을 위해 만들어진 대형 언어 모델들 및 텍스트에서 미디어를 생성할 수 있는 DALL-E와 같은 기술들 – 모두 예상치 못한 것을 제공합니다. 이들은 Clarke가 상상하기 힘들었을 것이라고 생각되는 진보를 이루며 이해하기 어려운 정도의 세련된 기능을 갖추고 있습니다.

인간의 심리는 민감합니다. 이해할 수 없는 현상에 직면하면 진화에 의해 형성된 우리의 본능적인 반응은 종종 두려움으로 향합니다. 그것이 왜 낯선 작은 생물은 잘 알려진 거대한 생물보다 더 위협적으로 느껴지는지입니다. ChatGPT와 그 동료들은 이러한 “단순한 마법 이상”의 장벽을 뛰어넘었으며, 그들의 경이로운 성능은 실제로 소동을 일으키고 있습니다.

인공지능(AI)은 그 능력 때문에 우리를 두렵게 만드는 것이 아니라, 어떻게 작동하고 어떤 결과를 얻는지에 대한 우리의 이해 부족 때문에 두렵게 느껴집니다. 우리의 이해 부족으로 우리는 AI가 “가능성있게 할 수 있는” 모든 추가적인 일들을 상상합니다.

또한: 최상의 생성형 AI 결과를 위한 더 나은 ChatGPT 프롬프트 작성 방법

“GPT-4에 대해서는 차분히 안심하세요”라는 기사에서 Rodney Brooks는 성능과 능력을 혼동해서는 안 된다고 말합니다. Brooks는 만약 AI 모델이 X를 할 수 있다면, X를 할 수 있는 인간이라고 해서 Y도 할 수 있다고 가정해서는 안 되는 것입니다. 우리의 두려움은 우리가 협소한 응용에서 놀라운 효과를 보이는 시스템의 전반적인 능력을 과대평가하며, 무한한 AI 능력을 상상하기 때문에 생기는 것입니다. AI의 내부 작동 원리를 해명함으로써 우리는 AI에 대한 두려움을 크게 줄일 수 있습니다. AI를 불투명한 “검은 상자”에서 투명한 “유리 큐브”로 옮길 수 있다면, 우리는 기술을 채택하는 인간으로서의 자세를 재조정할 수 있을 것입니다.

Dr. Michael Wu의 “Beyond ChatGPT: Inside the Minds of Generative AI”라는 강연에서 Wu 박사는 “하늘의 색깔은 무엇인가요?”와 같은 간단한 프롬프트가 실제로 어떻게 작동하는지 설명합니다. Wu는 생성 모델의 신비를 해체하는 데에 훌륭한 일을 해내며, 놀라운 답변은 “단지 수학”과 통계를 사용하여 생성된 것이며, 인간과 같은 의식적인 지능을 가지지 않는다는 것을 시연합니다. AI 응답의 수학적 기반을 밝힘으로써 청중에게 시스템이 인간과 같은 인식력을 가지고 있지 않다는 것을 확인시킵니다.

또한: 나는 보안 전문가인데도 거의 AI가 생성한 암호화 화폐 송장 사기에 당할 뻔했습니다

오늘날 우리는 AI에 대해 더 많이 이해하기 시작했지만, 앞으로의 길은 여전히 멀고도 험난합니다. 6월에 AWS CEO인 Adam Selipsky는 CNBC에 “우리는 단지 3단계를 거쳤을 뿐이며, 이것은 1만미터 달리기 경주이다”라고 말했습니다. AI가 진보함에 따라 모델은 현재의 능력을 뛰어넘는 발전을 이룰 것입니다. 향상된 데이터 활용, 개선된 모델 관리, 더 큰 생태계 통합, 인간의 역량 강화, 지속적인 수학/통계적 혁신은 시간이 흐름에 따라 AI를 크게, 지수적으로 향상시킬 수 있습니다. 우리는 전기, 비행, 자동차, 인터넷과 같은 과거의 기술들에 대한 두려움을 규제해 왔지만, AI에 대한 두려움을 완전히 규제해낼 수는 없을 것입니다. 그 이유는 AI는 누적 지수성을 가지고 있으며, 그 이전의 모든 것은 최대한으로는 선형적입니다. 근본적으로, 우리의 불안은 AI가 인간 종족의 번영을 계속할 수 있는 능력에 어떤 영향을 미칠지에 대한 것입니다. 극단적인 시나리오에서는 AI가 인류의 멸종을 초래할 것으로 생각하기도 합니다. 그러나 결과는 완전한 승리 또는 패배보다는 이진적인 것보다는 조금 덜 이진적일 가능성이 높습니다. 인간의 존재를 승리하거나 패배하는 것으로 미래를 구도하는 대신, 우리는 인공지능과 지속 가능하고 지속 가능하게 공존할 방법을 찾아야 합니다.

또한: 전문가에 따르면 생성형 AI의 5가지 가장 큰 위험

공존을 지침으로 삼는다면, AI 모델이 그 목표에 얼마나 부합하는지 평가할 수 있는 메커니즘이 필요합니다. AI 시스템이 제시되었을 때, 우리는 즉각적으로 그것이 인간-AI 공존을 지원하고 인간의 요구를 충족시키는 “좋은 AI”인지, 아니면 공존을 무시하고 신뢰할 수 없는지 판단할 수 있어야 합니다. 우리는 AI 모델의 신뢰성과 인류에 대한 서비스를 신호하는 쉽게 이해할 수 있는 점수 체계가 필요합니다.

이러한 메커니즘이 없으면, 우리는 모든 AI에 대해 점점 의심을 키울 수 있으며, 이는 AI를 사용하는 기업에 대한 불신을 조성할 수 있습니다. 협력적인 인간-AI 공존과의 일치성을 평가하기 위한 일관된 프레임워크는 기술의 공공적인 신뢰도 구축과 가치 추출에 중요합니다. 유럽 연합의 AI Act는 각 AI 모델에 대해 CE 마킹과 고유한 모델 번호를 요구함으로써 AI 점수 체계에 대한 초기 단계를 밟아갔습니다. 그러나 이 CE 마킹의 기반 정보는 모델이 어떻게 훈련되고 생성되었는지만을 나타냅니다. 이는 모델이 신뢰할 수 있는지를 나타내지 못합니다. 모델이 해당 규제를 준수할 수 있더라도, 대중의 신뢰를 얻지 못할 수 있으며, 이는 해당 모델을 제품과 서비스에 사용하는 소비자, 기업 또는 국가들의 인식에 영향을 미칠 수 있습니다. 단순히 요구 사항을 충족시키는 것은 공존 일치성과 동일하지 않습니다. 우리는 기술적인 지표를 넘어서 인간의 이익, 투명성, 공존 가능성을 명시적으로 평가하는 AI 점수 체계가 필요합니다.

또한: 인공지능의 윤리: 인공지능의 혜택과 위험

Google과 OpenAI와 같은 기업들은 모델의 디자인, 데이터, 훈련, 성능 및 한계에 대한 정보를 수집하고 제시하는 “모델 카드”를 사용하기 시작했습니다. 예를 들어, Google의 MediaPipe BlazeFace AI 모델은 Google 직원들이 주로 작성한 논문에 기술된 섹션, 데이터 및 형식을 갖춘 모델 카드를 가지고 있습니다. 반면에 OpenAI는 GTP-4에 대한 “시스템 카드”를 가지고 있는데, 이 카드는 Stanford 대학의 논문에서 규정된 섹션, 데이터 및 형식을 따릅니다.

두 가지 모델/시스템 카드는 옳은 방향으로의 한 걸음이지만, 각각 독립된 형식과 정보 아키텍처를 따른다는 사실은 여러 가지 도전 중 하나에 불과합니다. 주된 도전은 대부분의 소비자가 이러한 모델/시스템 카드를 읽고 이해하는 데 시간, 인내심 또는 능력을 갖추지 못할 것이라는 점입니다. 따라서 카드는 대중에게 공개되어 있지만, 소비자들에게는 다소 쓸모없습니다. 읽기에는 너무 길고, 이해하기에는 너무 어렵습니다.

또한: IBM 연구에 따르면 40%의 근로자가 인공지능으로 인해 다음 3년 내에 재기술이 필요하다고 합니다.

연습으로, 인간의 필요를 충족시키고 인간-인공지능 공존을 촉진하는 AI 모델의 일치를 나타내는 간단하고 쉽게 이해할 수 있는 점수를 정의해 봅시다. 모델의 공존을 나타내는 “인간 및 AI 공존 점수” (HAICO) 점수를 상상해 봅시다. 이런 점수는 어떻게 작동할까요? 각 AI 모델의 어떤 데이터가 수집되어야 하며, 얼마나 자주 그리고 어떤 공식을 사용하여 HAICO 점수를 계산해야 할까요? 이 프레임워크는 복잡한 정보를 일반 대중에게 쉽게 이해할 수 있는 점수로 축약해야 합니다.

복잡하지만, 이러한 점수매기기 프레임워크를 실현시키는 것은 불가능하지 않습니다. 상상상의 HAICO 점수가 Maslow의 욕구 계층으로 그룹화된 AI 모델의 50가지 속성으로 구성되는 것을 상상해 봅시다 (그림 1).

그림 1: 상상상의 HAICO 점수 개요

이 50가지 속성 각각은 인간-인공지능 공존에 부합하는 것을 측정합니다. 속성에서 나온 데이터는 칩에 내장된 루틴의 투명성, 훈련 데이터의 동의와 소유권, 모델 디자인, 추론 성능, 재훈련 및 재분배와 같은 모델 파이프라인 전체에서 수집됩니다.

모델 속성의 예는 모델이 견고하고 이용 가능하며 공정하며 인간의 자율성을 존중하며 합의 지향적이며 지속적으로 학습하며 인간의 삶에 가치를 더하는지 여부와 같은 항목들입니다. 각 속성은 0에서 5까지 점수가 매겨지고, 그런 다음 공식을 사용하여 각 모델의 전체 HAICO 점수가 0에서 100 사이로 결합됩니다 (그림 2).

또한: 오늘날의 AI 붐은 지금 바로 대처하지 않으면 사회적 문제를 증폭시킬 것입니다. – AI 윤리학자

최종 3단계 HAICO 점수 체계:

  • 비공존 (0-59 점): 인간의 필요를 충족시키기에 신뢰할 수 없음.
  • 공존 (60-79 점): 인간의 필요를 충족시키기에 신뢰할 수 있음.
  • 매우 공존 (80+ 점): 인간의 필요를 매우 신뢰할 수 있음.

그림 2: 50가지 속성 각각에 대해 0-5의 점수를 가진 상상상의 AI 모델, 각 계층에서 합산된 점수

이렇게 다중 계층 기술적 세부 사항이 공존과 신뢰성 점수의 간단한 세 단계 모델로 매핑될 수 있는 방법을 설명합니다. HAICO 상상상의 프레임워크는 시작점을 제공합니다. 이를 효과적인 대중적인 프레임워크로 전환하기 위해서는 포용적인 개발과 지속적인 개선이 필요합니다. 하지만 이것은 미묘한 인간-인공지능 공존 점수체계의 실행 가능성을 보여줍니다.

우리의 상상상의 HAICO 점수 체계는 완성에 가까이 있지 않으며, 할 일이 많이 남아 있습니다. 예를 들어, 각 계층의 가중치와 AI 모델을 비공존으로 분류하는 범위는 다른 대상을 위해 변경될 수 있습니다. HAICO 점수를 계산하는 공식은 PG-13 대상을 위해 분류된 AI 모델과 Rated R 대상을 위해 분류된 모델과 다를 수 있습니다. 이 그림은 우리가 인간-인공지능 공존에 부합하는지 여부를 결정하기 위한 쉽고 신뢰할 수 있는 방법을 도입하는 AI 모델을 위한 점수 체계를 수립할 수 있다는 것을 보여줍니다 (그림 3).

또한: AI 앞에 이 기술 파동이 빠르게 휩쓸고 있습니다.

우리는 “누가 이길 것인가” 논쟁을 넘어서 공존의 길로 나아가야 합니다. AI는 여기에 남아 있으며, 우리도 그렇습니다. 앞으로의 작업은 협력적인 공동체로서 이루어져야 합니다. 이 작업을 수행하지 않으면, 우리 상상상의 HAICO 점수와 같은 프레임워크의 부재는 소비자, 기업 또는 AI 모델을 사용하여 제품을 개발하거나 서비스를 제공하는 국가들의 신뢰성에 대한 의문을 점점 더 가져올 것입니다. 사회적으로 우리는 기술의 힘을 활용하여 인간 상태를 개선하는 기회를 놓칠 위험에 직면할 것입니다.

그림 3: AI 모델의 최종 HAICO 점수를 계산하기 위해 공식을 사용하여, 점수 76으로 COEXISTENT로 분류됩니다.

좋은 소식입니다: 성장 중인 AI 생태계 참여자들인 하드웨어 공급업체(NVIDIA, Intel, Apple, AMD, SambaNova), 클라우드(AWS, Google, Azure, Oracle, Alibaba, Salesforce), 모델, 시장(Cohere, Hugging Face), 앱(OpenAI, Antrophic, Stability.ai), 전략 및 서비스 회사(Deloitte, Accenture, IBM, Cognizant 등) 외에도 성장 중인 “모델 측정” 도구들이 등장하고 있습니다.

예를 들어, TensorFlow Data Validation은 데이터셋의 특성을 이해하고 이상을 감지하며 모델을 훈련시키는 데 사용된 데이터셋 간의 차이를 비교하는 데 도움을 줄 수 있습니다. CleverHans나 Adversarial Robustness Toolbox (ART)는 강건성을 계산할 때 모델에 대한 적대적 공격을 시뮬레이션하는 데 사용될 수 있습니다. Google의 Fairness Indicators, IBM의 AI Fairness 360 또는 Fairlearn과 같은 도구는 기계 학습 모델의 편향을 측정, 시각화 및 완화하는 데 사용될 수 있습니다. Google의 TFX, Seldon 또는 Fiddler와 같은 도구는 모델의 성능을 시간이 지남에 따라 모니터링하고, 중요한 변동이나 저하가 있을 때 알림을 보내줄 수 있습니다.

또한: MIT는 대량 채택되는 생성 AI 도구가 매우 중요한 요소를 방해하고 있다고 말합니다

조각들이 서서히 모여가고 있습니다. 북스타는 공존입니다. 우리는 이제 인간-AI 공존에 대한 모델의 일치를 나타내는 신뢰 점수를 협력적으로 설정할 수 있는 순간에 있습니다. 이는 인간의 금융 신뢰도를 나타내는 FICO 점수와 유사한 이해하기 쉬운 점수입니다. 이 기사에서 소개된 HAICO 점수는 대화를 시작하기 위한 전채요리입니다. 지금보다 더 좋은 시기는 없습니다.


이 기사는 Mobeus의 공동 창업자인 Richie Etwaru와 공동 저술되었습니다. Etwaru는 다학제적인 임원, 직렬 창업가 및 글로벌 사고 리더입니다. 그는 금융 서비스 및 의료 분야에서 글로벌 변혁을 설계하고 주도하는 데 C-스위트와 이사회와의 협력을 통해 기여했습니다. Etwaru는 소프트웨어 기반의 공간 컴퓨팅을 발명하고 31번째 인권을 개척했습니다. 그는 세 권의 책을 저술하였으며, 세 개의 TED 강연을 진행하고 100개 이상의 컨퍼런스에서 연설하였습니다.