AI 모델 강화 구글의 Gemini 1.5 대 UC 버클리의 LWM 🚀

연구진들은 혁신적인 방법을 사용하여 인공지능 모델을 훈련시키고 메타의 라마 2를 구글의 제미니의 성과와 비슷하게 확대시켰다.

“`html

오픈 소스 AI가 강력한 비디오 기능으로 Gemini을 능가합니다.

Google Gemini 웹사이트가 노트북에서 'Gemini 시대에 오신 것을 환영합니다' 라고 읽힙니다.

Google은 최근 신속한 인공지능(AI) 모델인 Gemini 1.5의 데모로 세계를 놀라게 했습니다. Gemini 1.5는 작년 12월에 출시된 최초의 Gemini 모델의 업그레이드 버전입니다. 이 놀라운 AI 모델은 “숲속의 바늘 찾기”와 같은 도전과제에서 우수성을 발휘합니다. 여기서 AI는 텍스트 설명을 기반으로 비디오 프레임을 식별해야 합니다 [^1^].

그러나 주요 상업 기업이 개발한 많은 AI 모델과 마찬가지로 Google의 Gemini 1.5는 소프트웨어가 실제로 어떻게 작동하는지에 대한 기술적인 세부사항을 제공하지 않습니다. Google이 공개한 58페이지의 기술 보고서는 모델 및 접근 방식에 대한 일반적인 설명만을 제공하며 기본 구조에 대한 구체적인 내용은 제공하지 않습니다. 마찬가지로 코드도 제공되지 않습니다 [^2^].

Gemini 1.5와 같은 모델들의 투명성 부족은 능력을 맞추면서 코드에 대한 액세스도 제공하는 오픈 소스 소프트웨어에 기회를 제공했습니다. 최근 캘리포니아 대학 버클리 캠퍼스의 과학자팀은 Meta의 오픈 소스 Llama 2 대형 언어 모델을 적응하여 비디오, 이미지와 비슷한 다중 모달 모델을 만들었습니다. 이 새로운 모델인 Large World Model (LWM)은 융암한 결과를 보여주고 있습니다 [^3^].

LWM: 도전자 등장 🌟

특히 대형 Llama 2의 주 버전을 사용하여 버클리 팀은 중요한 발전을 이루었습니다. 모델에 텍스트, 이미지 또는 비디오를 입력하는 것을 감당할 수 있었으며 이는 Gemini 1.0 및 OpenAI의 GPT-4 Turbo에서 처리된 128,000 개의 토큰과 비교했을 때 상당한 증가입니다 [^3^].

LWM은 Gemini 1.5와 마찬가지로 “숲속의 바늘 찾기” 과제에서 뛰어난 성과를 보여줍니다. 예를 들어 1시간 동안 유튜브 비디오를 보면서 “노트 트램폴린 여자가 어떤 색상의 재킷을 입고 있었습니까?”라는 질문에 대한 정확한 답변을 제공합니다 [^3^].

UC 버클리 캠퍼스의 Large World Model은 Google의 Gemini 1.0이나 OpenAI의 GPT-4 Turbo보다 특정 순간에 대한 “바늘 속의 바늘” 질문에 대답할 수 있습니다.

LWM과 Gemini 1.5 간의 직접적인 비교는 아직 이루어지지 않았지만, 버클리 팀은 Gemini 1.0과 GPT-4와 비교했을 때 강력한 결과를 보여주었습니다. 앞서 설명한대로, LWM은 “바늘 속의 바늘” 질문에 올바른 답변을 제공하는 반면 다른 두 모델은 실패하였습니다 [^3^].

게다가, LWM은 다른 영역에서도 빛을 발합니다. 비디오 콘텐츠에 대해 대화를 나눌 수 있으며 이미지 콘텐츠에 대한 세부적인 토론을 제공할 수 있습니다(“이미지 챗”이라고도 불리는 과정). 또한 텍스트 설명을 기반으로 이미지 및 비디오를 생성할 수 있습니다. LWM의 잠재력은 정말 인상적입니다 [^3^].

컴퓨팅 파워와 딥 러닝 전략 💡

재미있게도, LWM은 더 적은 컴퓨팅 파워를 사용하는 동안 Gemini 1.0과 비슷한 결과를 얻는 것으로 보입니다. LWM은 TPU 버전 4 “POD”의 한 슬라이스에서 훈련되었으며 총 58시간 동안 256개의 TPU 칩으로 구성되어 있습니다. 반면, Gemini 1.0이 사용한 컴퓨팅 자원에 대한 정보는 기술 보고서에서 제공되지 않았습니다 [^3^].

LWM의 성공 비결은 신경망 개발 방법에 있습니다. Gemini 1.0과 LWM은 Transformer라는 유사한 종류의 신경망을 사용합니다. 그러나 Google은 Transformer를 훈련 알고리즘, 데이터셋 및 인프라의 혁신으로 개선합니다 [^3^].

한편 버클리 팀은 다른 전략을 채택합니다. 지난 해 Liu와 팀이 개발한 “Ring Attention”이라는 훈련 방법을 사용합니다. Ring Attention은 신경망을 연이어 여러 라운드에 걸쳐 훈련시켜 “콘텍스트 창”을 증가시킵니다-각 패스에서 모델이 작업하는 데이터 샘플의 양. 32,768개의 토큰으로 시작하는 콘텍스트 윈도우(여러 데이터 조각을 나타냄)를 사용하여 팀은 서서히 100만 개의 토큰까지 작업합니다 [^3^].

“““html

LWM의 아키텍처.

Liu와 팀에 따르면, 이 접근 방식은 모델이 먼저 짧은 범위 의존성을 학습한 후 보다 긴 시퀀스에 대응하는 것으로 연산 파워를 절약할 수 있다고 합니다. 이렇게 함으로써, 최대 대상 시퀀스 길이에 직접 훈련하는 것보다 훨씬 많은 토큰에서 훈련할 수 있게 됩니다 [^3^].

뿐만 아니라, LWM의 훈련 데이터에는 저작권 침해 논란에 휩싸인 Books3와 GitHub에서 호스팅된 비디오 대화 데이터 세트 Video Instruct-100K와 같은 널리 인정받는 데이터 세트가 포함되어 있습니다 [^3^].

잠재력의 발견 🌐

Google은 최대 10백만 토큰까지 입력을 처리할 수 있는 Gemini 1.5로 나아가고 있지만, Liu와 팀은 링 어텐션 접근 방식이 사용 가능한 자원에 의해 제한되는 무한한 맥락으로 확장될 수 있는 잠재력이 있다고 믿습니다. 그들은 미래의 발전을 예견하며, 더 긴 문맥 모델과 순수한 사실 검색 대신 합성이 필요한 더 어려운 벤치마크들의 발전을 기대하고 있습니다 [^3^].

LWM의 코드는 연구팀의 GitHub 사이트에서 쉽게 사용할 수 있으며, 추가적인 탐색과 개발이 가능해집니다 [^3^].

👉 Q&A: AI 모델에 대해 더 알아보기

Q: Gemini 1.5의 기술적 세부사항 부족이 활용에 어떤 영향을 주나요?

A: Gemini 1.5의 제한된 기술 정보는 사용자가 내부 작동을 완전히 이해하고 필요에 따라 수정하는 것을 제한합니다. LWM과 같은 오픈 소스 모델은 더 많은 투명성과 사용자 정의 옵션을 제공하여 연구원과 개발자들에게 매력적입니다.

Q: Gemini 1.5와 LWM 사이에 뚜렷한 차이점이 있나요?

A: 두 모델 모두 비슷한 도전에 뛰어나지만, Gemini 1.5는 현재 LWM이 갖고 있지 않은 오디오 처리 능력을 자랑합니다. 그러나, LWM의 훈련 접근 방식과 낮은 컴퓨팅 파워 요구는 그것을 매력적인 대안으로 만듭니다.

Q: LWM의 발전이 AI 분야에 어떤 영향을 줄 수 있을까요?

A: LWM의 성공은 오픈 소스 모델의 잠재력을 강조하고, AI 개발에서 증가하는 투명성의 필요성을 강조합니다. 이는 더 많은 발전, 더 긴 문맥 모델, 그리고 AI의 한계를 미는 어려운 벤치마크에 대한 요구를 장려할 수 있는 힘을 가지고 있습니다.

전망: 발전된 AI로 가는 길 🚀

Google의 Gemini 모델과 UC 버클리의 LWM 간의 경쟁은 AI 기능의 한계를 뛰어넘습니다. 두 모델이 발전하고 미래 발전이 일어날 때, AI 커뮤니티 내에서 개방형 협력과 투명성을 유도하는 것이 중요합니다. 이 접근법은 혁신을 이끌며 가치 있는 통찰력을 제공하고 AI 기술의 진정한 잠재력을 개방할 것입니다.

📚 참고 자료: – [^1^]: Google의 Gemini AI 모델 – [^2^]: Gemini 1.5 기술 보고서 – [^3^]: UC 버클리의 LWM

🔥 이제는 당신의 차례입니다! AI 모델의 미래에 대한 생각을 아래 댓글에 공유하고 소셜 미디어에서 이야기를 퍼뜨려주세요! 🌟✨

“`