DeepMind의 RT-2는 로봇 제어를 AI 채팅의 문제로 만듭니다.

DeepMind의 RT-2는 AI 채팅을 통해 로봇 제어를 수행합니다.

딥마인드의 로봇 변형 버전 2는 이미지와 텍스트뿐만 아니라 로봇의 공간 내 이동 좌표 데이터도 학습하는 대형 언어 모델입니다. 학습이 완료된 후, 이미지와 명령을 입력하면 모델은 행동 계획과 명령을 완료하기 위한 좌표를 모두 생성할 수 있습니다.

로봇 공간 내에서 사람들이 기계에 실시간으로 지시하는 것은 로봇 기술의 핵심 요소입니다. 하지만 어떤 종류의 지시를 사용해야 할지는 아직 결정되지 않은 문제입니다.

Google의 딥마인드 팀이 신규 연구에서 제안한 것은 OpenAI의 ChatGPT와 유사한 대형 언어 모델을 사용하여 단어와 이미지 간의 연관성 및 로봇에서 기록된 데이터를 활용하여 기계에 지시를 입력하는 방법을 제공하는 것입니다. 이 모델을 사용하면 ChatGPT와 대화하는 것처럼 기계에 지시를 간단하게 입력할 수 있습니다.

또한: 최고의 인공지능 챗봇

안소니 브로한 및 동료들이 공동 저술한 딥마인드의 논문인 “RT-2: 비전-언어-동작 모델이 웹 지식을 로봇 제어로 이전시킵니다”는 “비전-언어-동작” 모델인 RT-2를 소개하고 있습니다. 이 논문은 블로그 게시물 내에서 게시되었으며, 동일한 이름의 GitHub 저장소도 함께 제공됩니다. RT는 “로봇 변형기”를 의미합니다.

이 연구의 핵심은 “로봇 동작을 또 다른 언어로 표현한다는 것입니다.” 브로한 및 팀은 이렇게 설명합니다. 이는 로봇에서 기록된 동작이 인터넷의 텍스트로부터 훈련되어 새로운 텍스트를 생성하는 ChatGPT와 유사한 방식으로 새로운 동작의 원천이 될 수 있다는 의미입니다.

또한: 이 군용 개는 뇌-기계 인터페이스 기술을 위한 더 큰 뇌의 일부입니다

로봇의 동작은 로봇 변형기에서 공간 내 좌표로 인코딩됩니다. “행동 공간은 로봇 종단부의 6-DoF [자유도] 위치 및 회전 변위, 로봇 그리퍼의 확장 수준 및 정상적 완료를 나타내는 특수한 이산 명령으로 구성됩니다. 이 명령은 정책에 의해 트리거되어 성공적인 완료를 신호로 보내야 합니다.”

이 토큰들은 훈련 중에 언어 토큰과 이미지 토큰과 함께 프로그램에 입력됩니다. 로봇 좌표는 문장의 일부로 처리됩니다.

로봇의 동작은 로봇 변형기에서 공간 내 좌표로 인코딩됩니다. 이 토큰들은 훈련 중에 언어 토큰과 이미지 토큰과 함께 프로그램에 입력됩니다. 로봇 좌표는 문장의 일부로 처리됩니다.

좌표의 사용은 중요한 이정표입니다. 일반적으로 로봇의 물리학은 언어 및 이미지 신경망과는 다른 저수준 프로그래밍을 통해 지정됩니다. 여기에서는 모두 혼합되어 사용됩니다.

RT 프로그램은 PaLI-X 및 PaLM-E라는 두 가지 이전 Google의 노력을 기반으로 구축되었습니다. 이 두 모델은 비전-언어 모델이라고 불리는 프로그램입니다. 이름에서 알 수 있듯이 비전-언어 모델은 텍스트 데이터와 이미지 데이터를 혼합하여 두 가지를 관련시킬 수 있는 능력을 개발합니다. 예를 들어 이미지에 캡션을 붙이거나 이미지 내용에 대한 질문에 답하는 등의 작업을 수행할 수 있습니다.

또한: Google Bard란 무엇인가요? 알아야 할 모든 것

PaLI-X는 이미지와 텍스트 작업에만 초점을 맞추지만, Google에서 최근에 소개한 PaLM-E는 언어 및 이미지를 사용하여 로봇을 제어하고 명령을 생성합니다. RT는 PaLM-E의 발전된 형태로 공간 내 이동 좌표 뿐만 아니라 행동 계획도 생성합니다.

베를린 대학교 전기공학과의 부교수인 세르게이 레빈은 ENBLE과의 이메일 교신에서 “RT-2는 중요한 발전입니다. 기본적으로 RT-2는 PaLM-E + RT1의 종합 버전으로 생각할 수 있습니다. 이를 통해 인터넷 규모의 지식을 로봇으로 전달하는 것이 보다 직접적이며, 앞으로 더 확장 가능한 접근 방식의 클래스를 제공할 수 있을 것입니다”라고 말했습니다.

RT-2의 경우 작년 버전인 RT-1의 후속 모델입니다. RT-1과 RT-2의 차이점은 첫 번째 RT가 작은 언어 및 비전 프로그램인 EfficientNet-B3를 기반으로 한다는 것입니다. 그러나 RT-2는 PaLI-X 및 PaLM-E라는 대형 언어 모델을 기반으로 합니다. 이는 프로그램을 보다 능숙하게 만들기 위해 많은 수의 신경 가중치 또는 매개 변수가 있는 것을 의미합니다. PaLI-X는 한 버전에 50억 개의 매개 변수와 다른 버전에 550억 개의 매개 변수를 가지고 있습니다. PaLM-E는 120억 개의 매개 변수를 가지고 있습니다.

RT-2의 훈련은 이미지와 텍스트 조합, 그리고 기록된 로봇 데이터에서 추출된 동작을 모두 포함합니다.

RT-2가 훈련된 후, 저자들은 로봇이 일련의 테스트를 실행합니다. 이 테스트에서는 로봇이 자연어 명령과 사진을 입력하여 물건을 집어 올리고, 이동시키고, 내려놓는 등의 동작을 수행해야 합니다. 이는 ChatGPT에게 무언가를 작성하도록 요청하는 것과 동일합니다.

또한: 알아야 할 7가지 고급 ChatGPT 프롬프트 작성 팁

예를 들어, 사진이 캔들과 사탕 한 개가 있는 테이블을 보여주는 프롬프트가 제시될 때:

주어진  명령: 다른 모든 물체와 다른 물체를 선택하세요.

로봇은 사탕을 집어올리기 위한 동작과 좌표를 생성합니다:

예측: 계획: rxbar 초콜릿을 집어올립니다. 동작: 1 128 129 125 131 125 128 127

세 자리 숫자는 좌표 이동에 대한 코드북의 키입니다.

RT-2는 프롬프트가 주어지면 동작 계획과 해당 동작을 수행하기 위한 일련의 좌표를 생성합니다.

중요한 점은 작업의 많은 요소가 이전에 본 적 없는 새로운 객체일 수 있다는 것입니다. “RT-2는 추론, 심볼 이해 및 인식이 필요한 다양한 현실 세계 상황에 일반화할 수 있습니다,”라고 저자들은 언급합니다.

“우리는 몇 가지 신생 능력을 관찰합니다,”라고 결과로서 말합니다. “이 모델은 로봇 데이터에서 배운 물건 집어넣기 및 배치 기술을 의미적으로 표시된 위치(특정 숫자 또는 아이콘과 같은) 근처에 물건을 배치하기 위해 재활용할 수 있습니다. 이러한 단서가 로봇 데이터에 제공되지 않았더라도 모델은 객체 간의 관계를 해석하여 어떤 객체를 선택하고 어디에 배치할지 결정할 수 있습니다.”

또한: 생성 AI의 과장을 구별하는 4가지 방법

RT-1 및 다른 프로그램과의 테스트에서 PaLI-X 또는 PaLM-E를 사용한 RT-2는 작업을 완료하는 데 훨씬 능숙합니다. 이전 프로그램의 경우 이전에 본 적 없는 객체를 포함한 작업의 약 50%에 불과하였으나, RT-2는 약 60%의 작업을 달성합니다.

PaLI-X는 로봇에 특화된 것이 아니라는 점과 PaLM-E는 그렇다는 점 사이에도 차이가 있습니다. “우리는 또한 PaLI-X 기반 모델이 평균적으로 심볼 이해, 추론 및 인식 성능에서 더 나은 결과를 보이지만, 작은 PaLM-E 기반 모델은 수학적 추론을 필요로하는 작업에서 약간의 우위를 가지고 있다,”라고 저자들은 설명합니다. 이 이점을 “PaLM-E에서 사용된 다른 사전 훈련 혼합으로 인한 것으로, 대부분 시각적으로 사전 훈련된 PaLI-X보다 수학 계산에 더 능숙한 모델이 생성됩니다.”

저자들은 시각-언어-동작 프로그램을 사용하여 로봇 학습 분야를 다른 분야의 발전과 함께 전략적인 위치에 놓을 수 있다고 결론 짓습니다. 이렇게 함으로써 언어 및 이미지 처리가 개선될수록 이 접근 방식이 혜택을 받을 수 있습니다.

또한: IT 보고서: 10명 중 9명의 IT 리더가 생성 AI가 곧 주류로 될 것이라고 말합니다.

그러나 한 가지 주의할 점이 있으며, 실시간으로 로봇을 제어하는 아이디어로 돌아갑니다. 대형 언어 모델은 계산 비용이 매우 높기 때문에 응답을 받는 데 문제가 발생할 수 있습니다.

“이러한 모델의 계산 비용이 높으며, 이러한 방법이 고속 제어를 요구하는 환경에 적용될 때 실시간 추론은 주요 병목 현상이 될 수 있습니다,”라고 저자들은 기술합니다. “미래 연구를 위한 흥미로운 방향은 양자화 및 디스틸레이션 기술을 탐구하는 것으로, 이러한 모델이 더 높은 속도로 실행되거나 더 저렴한 하드웨어에서 실행될 수 있도록 할 수 있습니다.”