곧 스마트폰에서 AI 작업을 실행할 수 있을까요? MediaTek는 그렇다고 말합니다

MediaTek는 곧 스마트폰에서 AI 작업을 실행할 수 있다고 말합니다.

새롭게 성장하고 있는 기술 중 하나인 생성 AI는 OpenAI의 ChatGPT와 Google Bard에서 채팅에 사용되며, Stable Diffusion과 DALL-E와 같은 이미지 생성 시스템에서도 사용됩니다. 그러나 모든 쿼리에 필요한 컴퓨팅 프로세스를 수행하기 위해 수백 개의 GPU가 있는 클라우드 기반 데이터 센터를 사용해야 하는 제한 사항이 있습니다.

하지만 언젠가는 생성 AI 작업을 직접 모바일 장치에서 실행할 수 있을 것입니다. 또는 연결된 차량에서. 또는 아마존 에코, 구글 홈 또는 애플 홈팟과 같은 스마트 스피커를 통해 거실, 침실 및 주방에서 실행할 수 있을 것입니다.

또한: 다음 핸드폰은 생성 AI 도구를 실행할 수 있을 것입니다 (비행기 모드에서도)

MediaTek는 이러한 미래가 우리가 인식하는 것보다 가깝다고 믿습니다. 이번에 대만에 본사를 둔 반도체 회사는 Meta와 협력하여 해당 소셜 기업의 Lllama 2 LLM을 지원하기 위해 최신 세대의 APU와 NeuroPilot 소프트웨어 개발 플랫폼을 결합한 기기에서 외부 처리에 의존하지 않고 생성 AI 작업을 실행할 수 있도록 작업하고 있다고 발표했습니다.

물론, 이에는 한 가지 제한 사항이 있습니다. LLM 데이터 세트의 크기 (포함하는 매개 변수 수)와 저장 시스템의 필요한 성능 때문에 데이터 센터는 완전히 없어지지 않습니다. “작은” Llama 2 데이터 세트는 예를 들어 70억 개의 매개 변수 또는 약 13GB로, 어떤 기본적인 생성 AI 기능에 적합합니다. 그러나 720억 개의 매개 변수로 이루어진 훨씬 더 큰 버전은 고급 데이터 압축을 사용하더라도 훨씬 더 많은 저장 공간이 필요합니다. 이는 현재의 스마트폰의 실용적인 성능 범위를 벗어납니다. 앞으로 몇 년 동안 개발 중인 LLM은 Llama 2나 GPT-4보다 10배에서 100배 이상의 크기가 되며, 저장 요구 사항은 수백 기가바이트 이상이 될 것입니다.

스마트폰에서 이러한 크기의 데이터를 저장하고 데이터베이스 성능에 충분한 IOPS를 가지는 것은 어렵지만, 빠른 플래시 저장소와 테라바이트의 RAM을 갖춘 특수 설계 캐시 장치를 사용하면 가능합니다. 따라서 Llama 2의 경우, 모든 무거운 컴퓨팅 없이 모바일 기기에 대한 서비스를 최적화한 장치를 단일 랙 유닛에 호스팅할 수 있습니다. 이것은 핸드폰은 아니지만 여전히 상당히 인상적입니다!

또한: 2023년 최고의 AI 챗봇: ChatGPT와 대안들

MediaTek는 Llama 2 기반 AI 애플리케이션이 올해 말에 출시 예정인 다음 세대 플래그십 SoC를 장착한 스마트폰에서 사용할 수 있도록 기대하고 있습니다.

장치 내 생성 AI가 이러한 데이터 세트에 액세스하려면 모바일 통신사는 저지연 엣지 네트워크에 의존해야 합니다. 이러한 데이터 센터는 5G 타워와 빠른 연결을 가진 소형 데이터 센터/장비실에 위치하게 됩니다. 이 데이터 센터는 직접 통신사의 네트워크에 속하므로 스마트폰에서 실행되는 LLM은 매개 변수 데이터에 액세스하기 전에 많은 네트워크 “점프”를 거치지 않아도 됩니다.

MediaTek의 특수 프로세서와 같은 전용 프로세서를 사용하여 장치에서 AI 작업을 실행하는 것 외에도, 도메인 특정 LLM은 미니어처 데이터 센터 내에서 이러한 캐시 장치와 혼합 방식으로 실행함으로써 애플리케이션 작업 부하와 더 가까이 이동할 수 있습니다. 이를 “제한된 장치 엣지” 시나리오라고 합니다.

또한: 업무용으로 가장 좋은 AI 도구 5가지

그렇다면 장치 내 생성 AI 사용의 이점은 무엇일까요?

  • 지연 시간 감소: 장치 자체에서 데이터를 처리하기 때문에 응답 시간이 크게 줄어듭니다. 특히 매개 변수 데이터 세트의 자주 액세스되는 부분에서 지역화된 캐시 방법론이 사용될 경우에는 더욱 그렇습니다.
  • 개인 정보 보호 향상: 데이터를 장치에 보관함으로써 해당 데이터(예: 채팅 대화나 사용자가 제출한 훈련)는 데이터 센터를 통해 전송되지 않습니다. 모델 데이터만 전송됩니다.
  • 대역폭 효율성 향상: 현재 생성 AI 작업은 사용자 대화의 모든 데이터가 데이터 센터로 왔다갔다해야 합니다. 지역 처리를 통해 이 중 상당량을 장치에서 처리할 수 있습니다.
  • 운영 탄력성 증가: 장치 내 생성을 사용하면 네트워크가 중단된 경우에도 시스템이 계속 정상적으로 작동할 수 있습니다. 특히 장치에 충분한 매개 변수 캐시가 있는 경우에 그렇습니다.
  • 에너지 효율성: 데이터 센터에서의 계산 집약적인 자원이나 장치에서 데이터 센터로의 데이터 전송에 필요한 에너지가 덜 필요합니다.

하지만 이러한 이점을 얻기 위해서는 작업 부하를 분할하고 중앙 집중식 데이터 센터의 컴퓨팅 비용과 네트워크 부하를 완화하기 위해 다른 로드 밸런싱 기술을 사용해야 할 수도 있습니다.

빠르게 연결된 엣지 데이터 센터(그러나 계산 및 에너지 요구가 크게 줄어든)가 계속 필요한 것 외에도, 또 다른 문제가 있습니다. 현재 하드웨어에서 실제로 얼마나 강력한 LLM을 실행할 수 있을까요? 디바이스 간 네트워크를 통해 데이터가 가로채지는 것에 대한 우려는 적지만, 로컬 장치에서 민감한 데이터가 제대로 관리되지 않으면 침해될 수 있는 추가 보안 위험이 있습니다. 또한, 대량의 분산 엣지 캐시 장치에서 모델 데이터를 업데이트하고 데이터 일관성을 유지하는 도전도 있습니다.

또한: 엣지에서 클라우드로 이동하는 것이 다음 단계의 디지털 변환을 주도하고 있습니다.

마지막으로, 비용 문제가 있습니다. 이 모든 미니 엣지 데이터 센터의 비용은 누가 부담할 것인가요? 엣지 네트워킹은 현재 엣지 서비스 제공업체(예: Equinix)에 의해 사용되며, Netflix와 Apple의 iTunes와 같은 서비스에서 필요한 것이지만, AT&T, T-Mobile 또는 Verizon와 같은 이동 통신 사업자는 아닙니다. OpenAI/Microsoft, Google 및 Meta와 같은 생성적 AI 서비스 제공업체도 유사한 협정을 해결해야 할 것입니다.

디바이스 내 생성적 AI에는 많은 고려 사항이 있지만, 기술 회사들이 이미 이에 대해 생각하고 있음은 분명합니다. 5년 안에 디바이스 내 지능형 어시스턴트가 자체적으로 생각할 수도 있습니다. 지갑에 인공지능을 담을 준비가 되셨나요? 그것은 오고 있습니다 – 그리고 대다수의 사람들이 기대하지도 않은 것보다 훨씬 빨리.