당신의 아이폰에서 곧 AI 작업을 실행할 수 있을까요? MediaTek는 그렇다고 말합니다.

MediaTek claims that you will soon be able to perform AI tasks on your iPhone.

생성적 인공지능(Generative AI)은 가장 빠르게 성장하고 있는 기술 중 하나로, OpenAI의 ChatGPT 및 Google Bard에서는 채팅에, Stable Diffusion 및 DALL-E와 같은 이미지 생성 시스템에서는 사용됩니다. 그러나 이러한 도구들은 모든 쿼리에 필요한 컴퓨팅 프로세스를 수행하기 위해 수백 개의 GPU가 있는 클라우드 기반 데이터 센터의 사용을 요구하기 때문에 특정한 제한 사항이 있습니다.

하지만 언젠가는 생성적 인공지능 작업을 모바일 기기에서 직접 실행할 수 있을 것입니다. 또는 연결된 차량에서도 가능할 것입니다. 아마존 에코, 구글 홈 또는 애플 홈팟과 같은 스마트 스피커로도 거실, 침실 및 주방에서 가능할 것입니다.

또한: 다음 폰에서는 생성적 인공지능 도구를 실행할 수 있습니다(비행기 모드에서도)

MediaTek은 이러한 미래가 우리가 인지하는 것보다 더 가까운 곳에 있다고 믿습니다. 이 대만 소재의 반도체 회사는 오늘, Meta와 협력하여 소셜 거대 기업인 Lllama 2 LLM을 사회 기반의 AI 작업을 위해 외부 처리에 의존하지 않고 기기에서 실행하기 위해 최신 세대의 APUs와 NeuroPilot 소프트웨어 개발 플랫폼을 결합하여 포팅하는 작업을 진행 중이라고 발표했습니다.

물론, 이는 데이터 센터를 완전히 없애지는 않습니다. LLM 데이터 세트의 크기(포함하는 매개 변수의 수)와 저장 시스템의 필요한 성능을 고려할 때 여전히 데이터 센터가 필요합니다. 예를 들어, Llama 2의 “작은” 데이터 세트는 70억 개의 매개 변수 또는 약 13GB로, 어떤 초보적인 생성적 인공지능 기능에 적합합니다. 그러나 720억 개의 매개 변수로 구성된 훨씬 큰 버전은 고급 데이터 압축을 사용하더라도 비례적으로 훨씬 더 많은 저장 공간이 필요하며, 이는 현재의 스마트폰의 실용적인 성능 범위를 벗어납니다. 개발 중인 LLM은 앞으로 여러 해 동안 Llama 2 또는 GPT-4의 10배에서 100배까지의 크기로 쉽게 커질 것이며, 저장 요구 사항은 수백 기가바이트 이상이 될 것입니다.

스마트폰에는 이를 저장하고 데이터베이스 성능을 위한 충분한 IOPS를 가질 수 있는 것은 어렵지만, 빠른 플래시 저장소와 테라바이트의 RAM을 갖춘 특별히 설계된 캐시 장치로는 문제가 되지 않습니다. 따라서 Llama 2의 경우, 모든 무거운 컴퓨팅 작업 없이도 모바일 기기에 대한 서비스 최적화된 장치를 단일 랙 유닛에 호스팅하는 것이 가능합니다. 이것은 폰은 아니지만, 여러모로 굉장히 인상적입니다!

또한: 2023년 최고의 AI 챗봇: ChatGPT 및 대안들

MediaTek은 Llama 2 기반의 AI 애플리케이션이 연간말까지 시장에 출시될 예정인 다음 세대 플래그십 SoC를 탑재한 스마트폰에서 사용 가능하게 될 것으로 예상합니다.

기기 내 생성적 인공지능이 이러한 데이터 세트에 접근하기 위해 모바일 통신 사업자는 저지연 엣지 네트워크에 의존해야 합니다. 이는 5G 타워에 빠른 연결을 제공하는 작은 데이터 센터 또는 장비 실에 거주하게 됩니다. 이러한 데이터 센터는 직접 통신사 네트워크에 위치하므로 스마트폰에서 실행되는 LLM은 매개 변수 데이터에 액세스하기 전에 많은 네트워크 “점프”를 거칠 필요가 없습니다.

MediaTek의 특수 프로세서와 같은 특화된 프로세서를 사용하여 기기에서 AI 작업을 실행하는 것 외에도, 도메인 별 LLM은 이 캐시 장치와 함께 하이브리드 방식으로 응용 프로그램 작업 부하에 가까이 이동하여 “제한된 기기 엣지” 시나리오에서 실행될 수 있습니다.

또한: 업무용으로 가장 좋은 AI 도구 5가지

그래서 기기 내 생성적 인공지능 사용의 이점은 무엇일까요?

  • 지연 시간 감소: 데이터가 기기 자체에서 처리되기 때문에 응답 시간이 크게 감소하며, 매개 변수 데이터 세트의 자주 액세스되는 부분에서 지역화된 캐시 방법론이 사용된다면 특히 그 효과가 더욱 커집니다.
  • 데이터 개인 정보 보호 향상: 사용자가 전송한 채팅 대화나 훈련과 같은 데이터가 데이터 센터를 통해 전송되지 않고, 모델 데이터만 전송됩니다.
  • 대역폭 효율 개선: 현재 생성적 인공지능 작업은 사용자 대화의 모든 데이터가 데이터 센터로 왕복해야 합니다. 지역 처리를 통해 이 중 상당 부분이 기기에서 처리됩니다.
  • 작동 신뢰성 증가: 기기 내 생성 작업을 통해 네트워크가 중단되더라도 시스템은 계속 작동할 수 있으며, 특히 기기에 충분한 매개 변수 캐시가 있는 경우 더욱 그렇습니다.
  • 에너지 효율성: 데이터 센터에서의 계산 집약적인 리소스나 기기에서 데이터 센터로의 데이터 전송에 필요한 에너지가 적게 필요합니다.

그러나 이러한 이점을 얻기 위해서는 작업 부하를 분산하고 중앙 데이터 센터의 컴퓨팅 비용과 네트워크 부하를 완화하기 위해 다른 로드 밸런싱 기술을 사용해야 할 수도 있습니다.

고속 연결된 엣지 데이터 센터가 계속 필요한 것은 물론 (그러나 대폭 감소된 연산 및 에너지 요구 사항을 갖춘 것), 여기에 또 다른 문제가 있습니다. 오늘날의 하드웨어에서 정말로 강력한 LLM (Large Language Model)을 실행할 수 있을까요? 그리고 네트워크를 통해 장치 내 데이터가 가로채지는 것에 대한 우려는 덜하지만, 장치가 적절하게 관리되지 않으면 민감한 데이터가 로컬 장치에서 침투될 수 있는 추가적인 보안 리스크가 발생하며, 분산된 엣지 캐싱 장치의 모델 데이터를 업데이트하고 데이터 일관성을 유지하는 것도 도전입니다. 

또한: 엣지에서 클라우드로 가는 디지털 변형의 다음 단계를 주도하는 것

마지막으로, 비용 문제도 있습니다. 이 모든 미니 엣지 데이터 센터의 비용은 누가 지불할까요? 엣지 서비스 제공업체 (예: Equinix)는 현재 엣지 서비스 제공업체 (예: Netflix 및 Apple의 iTunes)에 필요합니다. 이는 전통적으로 AT&T, T-Mobile 또는 Verizon와 같은 이동 통신사가 아닙니다. OpenAI/Microsoft, Google 및 Meta와 같은 창조적 AI 서비스 제공업체들도 비슷한 협정을 마련해야 합니다. 

장치 내 생성적 AI에는 많은 고려 사항이 있지만, 기술 기업들이 이에 대해 생각하고 있다는 것은 분명합니다. 5년 이내에는 당신의 장치 내 지능형 어시스턴트가 완전히 스스로 생각할 수도 있습니다. 주머니 속 인공지능에 준비가 되셨나요? 그것은 오고 있습니다 – 그리고 대다수의 사람들이 예상하는 것보다 훨씬 더 빨리 오고 있습니다.