Nvidia 칩 부족으로 인해 AI 스타트업들이 컴퓨팅 파워를 찾기 위해 분주하다.

AI 스타트업들은 Nvidia 칩 부족 때문에 컴퓨팅 파워를 찾기 위해 분주하고 있다.

미국 동부 시간으로 평일 오전 11시쯤, 유럽이 마무리를 지으며 미국 동부 해안은 정오에 가까워 지고, 실리콘밸리에서는 활기를 찾는 가운데, 이스라엘 텔아비브에 기반을 둔 스타트업 Astria의 AI 이미지 생성기는 여전히 바쁘게 동작하고 있습니다. 그러나 이 회사는 이 활발한 활동으로부터 크게 이익을 얻지 못하고 있습니다.

Astria와 같은 AI 기술을 개발하는 회사들은 사진 및 기타 미디어에서 패턴을 학습하는 소프트웨어를 훈련시키기 위해 그래픽 프로세서(GPU)를 사용합니다. 이 칩들은 인퍼런스(inference) 또는 사용자 입력에 대한 응답으로 콘텐츠를 생성하기 위해 그 학습 내용을 활용합니다. 그러나 AI를 모든 앱과 프로그램에 통합하기 위한 전 세계적인 동향과 초창기 팬데믹 이후 지속되는 제조 어려움으로 인해 GPU의 공급이 부족합니다.

이러한 공급 부족은 peak 시간에 Astria의 클라우드 컴퓨팅 공급업체(Amazon Web Services)에서 이 스타트업이 클라이언트를 위해 이미지를 생성하기 위해 필요로 하는 이상적인 GPU가 전부 사용 중인 상황을 의미합니다. 그래서 회사는 작업을 완료하기 위해 더 강력하고 더 비싼 GPU를 사용해야 합니다. 비용이 빠르게 증가합니다. “얼마나 더 많이 지불할 것인가요?”라고 Astria의 창립자인 Alon Burg은 말하며 자신의 스타트업을 추구하는 것보다는 세계 최대의 GPU 제조업체인 Nvidia의 주식에 투자하는 것이 더 수익성이 있을지 궁금해한다는 농담을 합니다. Astria는 고객들에게 비용을 균형있게 맞추는 방식으로 요금을 청구하지만 여전히 원하는 것보다 더 많은 비용을 지출하고 있습니다. Burg은 “비용을 줄이고 몇 명의 엔지니어를 더 모집하고 싶습니다.”라고 말합니다.

GPU 공급 부족에는 즉각적인 해결책이 없습니다. 전 세계 AI 서버 칩 공급의 약 60~70%를 차지하는 시장 선도기업인 Nvidia는 어제 2분기에 데이터 센터 GPU로 103억 달러의 판매실적을 기록했으며, 전년 대비 171% 증가했으며, 현재 분기에도 매출이 기대치를 뛰어넘을 것으로 발표했습니다. CEO인 Jensen Huang는 수익 통화에서 분석가들에게 “우리의 수요는 엄청나다.”라고 말했습니다. 시장 조사업체인 Gartner에 따르면 올해 AI 칩에 대한 글로벌 지출은 530억 달러에 이를 것으로 예상되며, 다음 4년 동안 두 배 이상 증가할 것으로 예상됩니다.

지속되는 공급 부족으로 인해 기업들은 필요한 자원에 접근하기 위해 혁신을 해야 합니다. 일부 기업들은 사용자를 고립시키지 않기 위해 현금을 모으고 있습니다. “최적화” 및 “더 작은 모델 크기”와 같은 공학 용어들이 GPU 요구 사항을 줄이기 위해 유행하고 있으며, 올해 투자자들은 가지고 있는 GPU로 해결할 수 있도록 돕는 소프트웨어를 개발하는 스타트업들에 수억 달러를 투자했습니다. Modular와 같은 이러한 스타트업 중 하나인 Tim Davis의 말에 따르면, 5월에 출시한 이후로 3만 명 이상의 잠재 고객으로부터 문의를 받았습니다. 생명력 있는 AI 경제에서 GPU 공급 부족을 극복하는 능력은 생존의 결정요소가 될 수 있습니다.

“우리는 용량 제한된 세상에서 새로운 것을 함께 조합하고 섞어 맞추고 균형을 맞추기 위해 창의성을 발휘해야 합니다.”라고 AI 기반 비즈니스 문서 작성 도구인 Yurts의 CEO인 Ben Van Roo는 말합니다. “나는 컴퓨팅에 많은 돈을 쓰기를 거부합니다.”

클라우드 컴퓨팅 공급업체들은 고객들이 용량 부족으로 고민하고 있다는 사실을 아주 잘 알고 있습니다. 급증하는 수요는 “업계를 조금 당황시켰다”고 말하는 AWS의 제품 관리 디렉터인 Chetan Kapoor는 말합니다.

데이터 센터에서 새로운 GPU를 확보하고 설치하는 데 필요한 시간으로 인해 클라우드 거물들은 지연되고 있으며, 가장 많이 요구되는 특정 배열도 스트레스를 유발합니다. 대부분의 애플리케이션은 전 세계적으로 분산된 프로세서에서 작동할 수 있지만, 생성적인 AI 프로그램의 훈련은 때로는 1만 개의 칩을 한데 묶어 물리적으로 밀접하게 클러스터링할 때 가장 잘 작동합니다. 이는 이전에 없던 가용성을 점유합니다.

Kapoor는 AWS의 전형적인 생성적인 AI 고객이 수백 개의 GPU에 액세스하는 것이 일반적이라고 말합니다. “특정 고객이 내일 1000개의 GPU를 필요로 하는 요청이 있는 경우, 그것을 할당하는 데 시간이 걸릴 것입니다.”라고 Kapoor는 말합니다. “하지만 유연하다면 문제를 해결할 수 있습니다.”

AWS는 고객들이 걱정하지 않아도 되는 옵션으로 비용이 더 비싼 맞춤형 서비스인 Bedrock을 채택하도록 권장했습니다. 또는 고객은 AWS의 고유한 AI 칩인 Trainium과 Inferentia를 시도해볼 수도 있습니다. Kapoor에 따르면, Nvidia 옵션 대신 Trainium으로 전환하는 것은 예전에는 일이었지만, 지금은 몇 줄의 소프트웨어 코드를 변경하는 것만으로도 가능합니다.

다른 곳에서도 도전이 많이 있습니다. Google Cloud는 내부 개발한 GPU와 동등한 TPU에 대한 수요를 따라잡지 못했다고 언론에 인가되지 않은 직원이 말했습니다. 대변인은 요청에 대해 응답하지 않았습니다. Microsoft의 Azure 클라우드 부문은 4월에 Information이 보도한 바에 따르면, 예약한 GPU를 사용하지 않는 고객들에게 환불을 제안했습니다. Microsoft는 댓글을 거부했습니다.

클라우드 회사들은 고객이 수개월에서 수년 전에 용량을 예약하는 것을 선호합니다. 그렇게 하면 공급 업체들은 자신들의 GPU 구매와 설치를 더 잘 계획할 수 있습니다. 그러나 제품을 정리하는 동안 현금이 거의 없고 불규칙한 요구를 가진 스타트업들은 결속하기를 주저해왔으며, 단기 비용 지불 방식을 선호합니다. 이로 인해 Lambda Labs와 CoreWeave와 같은 대체 클라우드 공급 업체들은 올해 투자자로부터 거의 5억 달러를 모으는 등 사업이 급증하였습니다. 이미지 생성 스타트업인 Astria는 그들의 고객 중 하나입니다.

AWS는 새로운 시장 진입자들에게 밀려 패배하는 것에 대해 정확히 기뻐하지는 않으며, 추가적인 옵션을 고려하고 있습니다. Kapoor는 “우리는 고객들이 찾는 경험을 제공하기 위해 단기적으로와 장기적으로 다양한 솔루션을 고민하고 있습니다.”라고 말하며 자세한 설명은 하지 않았습니다.

클라우드 공급 업체들의 부족은 기술 분야에서 몇몇 큰 기업들을 포함한 그들의 클라이언트에게까지 영향을 미치고 있습니다. 소셜 미디어 플랫폼인 Pinterest는 사용자와 광고주에게 보다 나은 서비스를 제공하기 위해 AI의 사용을 확대하고 있다고 기술 책임자인 Jeremy King이 말합니다. 이 회사는 아마존의 새로운 칩을 사용하는 것을 고려하고 있습니다. King은 “우리도 모두와 같이 GPU가 필요합니다. 칩 부족은 실제로 존재하는 문제입니다.”라고 말합니다.

ChatGPT를 개발하고 이 기술을 다른 회사에 라이선스로 제공하는 OpenAI는 자사의 서비스를 제공하기 위해 Azure의 칩에 크게 의존하고 있습니다. GPU의 부족으로 인해 OpenAI는 판매하는 도구들에 사용량 제한을 설정해야 했습니다. 그것은 AI 어시스턴트 Jamie의 오디오를 요약하는 회의에서 OpenAI 기술을 사용하는 회사와 같은 고객들에게 불행을 가져왔습니다. Jamie의 공개 런칭 계획은 시스템을 완벽하게 만들기를 원하고, 또한 사용량 제한 때문에 적어도 5개월 이상 지연되었다고 스타트업의 공동 창업자인 Louis Morgner는 말합니다. 이 문제는 여전히 해결되지 않았습니다. Morgner는 “우리는 공개적으로 출시하기까지 몇 주 남았으며, 서비스 제공자의 한계로 인해 시스템이 얼마나 잘 확장될 수 있는지를 주의 깊게 모니터링해야 할 것입니다.”라고 말합니다.

“산업은 GPU에 대한 강한 수요를 보이고 있습니다.”라고 OpenAI 대변인인 Niko Felix는 말합니다. “API 고객들이 자신들의 요구를 충족시킬 수 있는 용량을 확보하기 위해 계속해서 노력하고 있습니다.”

이 시점에서 스타트업이 컴퓨팅 파워에 접근할 수 있는 어떤 연결이라도 필수적입니다. 투자자, 친구, 이웃 – 스타트업 임원들은 AI 파워를 얻기 위해 다양한 관계를 활용하고 있습니다. 예를 들어, Astria는 AWS에서 추가 용량을 확보하기 위해 Stability AI의 CEO인 Emad Mostaque의 도움을 받았습니다. Stability AI는 AWS의 근처 파트너이며, Astria는 이 회사의 기술을 사용합니다.

일부 지루한 데이터 정렬을 위해 OpenAI 기술을 사용하는 회계 관리 스타트업인 Pilot은 OpenAI와 관련된 대학 친구들, 직원들, 벤처 투자가들의 도움을 요청함으로써 GPT-4에 대한 초기 액세스를 얻었습니다. 이러한 관계들이 Pilot의 대기 목록에서 이동을 가속화시켰는지는 알 수 없지만, 이제 Pilot은 OpenAI에 약 1,000달러를 매달 지출하며, 이러한 관계들은 할당량을 늘릴 때 유용할 수 있습니다. CEO인 Waseem Daher는 “만약 이 [생성적 AI 기술]을 활용하지 않는다면 다른 사람들이 활용할 것이고, 그것은 위험하며 최고의 결과를 고객에게 제공하고 산업의 동향을 따라가기를 원하기 때문에 그런 위험을 감수하고 싶지 않습니다.”라고 말합니다.

더 많은 파워에 접근하기 위해 싸우는 것 외에도 회사들은 더 적은 자원으로 더 많은 일을 하려고 노력하고 있습니다. 생성적 AI를 실험하는 회사들은 이제 “최적화”에 집중하고 있습니다 – 처리를 가능한 많은 일에 적용하면서도 만족스러운 결과를 얻을 수 있도록 칩에 대한 프로그래밍 명령을 더 잘 작성하려고 합니다. 그것은 AI 시스템을 훈련시키기 위해 사용되는 데이터의 양을 재구성하고 제한한 다음 추론 코드를 최소한으로 줄여 필요한 작업을 처리할 수 있도록 합니다. 이는 서로 다른 작은 시스템들을 구축하는 것을 의미할 수 있습니다 – 아마 동물을 출력하는 이미지 생성기와 사람의 이미지를 생성하는 다른 시스템, 사용자의 프롬프트에 따라 그 사이를 전환하는 것일 수도 있습니다.

또한 GPU가 가장 많이 사용 가능한 시간에 시간에 민감하지 않은 프로세스들을 예약하고, 속도와 가격을 균형있게 조절하기 위해 어떤 절충을 해야 합니다.

음성 생성 스타트업 Resemble AI는 오래된 칩에서 고객 요청을 처리하는 데 0.1초 더 걸린다 해도, 높은 가격을 지불할 필요 없이 0.1초에 해당하는 금액을 지출하는 것에 만족하며, 오디오 품질에는 눈에 띄는 차이가 없다고 CEO인 Zohaib Ahmed가 말합니다. 그는 또한 Lambda와 CoreWeave 이외의 다른 옵션을 찾으려는 용의가 있으며, 그들의 조건이 더 이상 매력적이지 않아질 때도 그렇습니다 – 장기 계약을 체결하도록 유도하는 것이 포함됩니다. CoreWeave는 댓글을 거절했으며, Lambda는 댓글 요청에 응답하지 않았습니다.

Resemble는 최근 샌프란시스코 컴퓨트 그룹에 참여한 스타트업의 협력체로 GPU 용량을 구매하고 나누기로 약속한 작은 공급자인 FluidStack에 의존하고 있다. “스타트업 생태계는 함께 모여 ‘컴퓨팅을 어떻게 싸워야 하는가?’를 알아보려고 합니다. 그렇지 않으면 게임은 매우 불공정할 것입니다. 가격이 너무 높습니다,”라고 Ahmed는 말합니다.

Ahmed는 매주 월요일 아침에 부족한 상황에 대한 희망의 빛을 본다고 합니다. 클라우드 제공자인 Lambda의 영업 담당자가 그에게 연락하여 Nvidia의 최신 칩인 H100을 예약하고자 하는지 물어보고 있다고 합니다. Ahmed는 그러한 가용성이 흥미롭다고 말하지만, 그 칩은 지난 3월부터 널리 사용 가능해진 것일뿐, 테스트 중인 회사들이 그 코드를 완벽하게 향상시켜 그 칩에 올인하기만 하는 시간 문제일 뿐입니다. Nvidia는 내년에 최신 제품인 제2 세대 GH200을 출시할 것입니다. 그런 다음 희귀성의 사이클이 다시 시작될 것입니다.