Meta의 Data2vec 2.0 두 번째 시도는 더 빠릅니다

Meta Data2vec 2.0 is faster in its second attempt.

메타의 Data2vec는 다양한 형식의 데이터 예제를 처리할 수 있는 종합적인 신경망의 한 예입니다. 이 경우에는 음성, 텍스트 및 이미지와 같은 다양한 데이터 형식에 대해 동일한 코드를 사용하여 해당 데이터에 대한 예측을 수행할 수 있습니다.

신경망에서 목표를 증명했을 때 어떻게 해야 할까요?

더 빠르게 실행하는 것이 하나의 대답입니다.

화요일에는 Facebook, Instagram 및 WhatsApp의 소유자인 Meta가 올해 초에 도입된 신경망의 개선인 Data2vec 2.0을 공개했습니다. 이 신경망은 텍스트, 이미지 및 음성 데이터를 포함한 작업에 대해 동일한 기본 접근 방식을 사용하여 수행하는 종합적인 역할을 합니다.

두 번째로 Meta의 과학자들은 프로그램을 더 빠르게 만들었으며, 일부 경우에서는 기계 학습 작업의 벤치마크 테스트에서 더 정확도를 높였습니다.

“Data2vec 2.0은 자기지도 학습의 훈련 속도가 하류 작업 정확도의 손실 없이 크게 향상될 수 있다는 것을 보여줍니다.” Alexei Baevski, Arun Babu, Wei-Ning Hsu 및 Michael Auli 저자 중 4명은 이 새로운 작업인 Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language에서 원래 Data2vec 논문의 저자입니다.

또한: ChatGPT란 무엇이며 왜 중요한가?

두 번째 Data2vec의 특별한 성취는 Data2vec의 훈련에 걸리는 시간을 줄인 것입니다. 신경망의 훈련은 일반적으로 훈련 예제가 주어지는 횟수인 “에포크”로 측정됩니다. 시작부터 완료까지의 시간인 벽시계 시간으로도 측정될 수 있습니다.

“실험 결과, Data2vec 2.0은 많은 인기 있는 기존 알고리즘과 같은 정확도를 2-16배의 훈련 속도로 달성할 수 있음을 보여줍니다.” 그들은 이와 같이 쓰여 있습니다.

Data2vec라는 이름은 2013년 Google에서 개발된 언어 “임베딩” 프로그램인 Word2vec의 이름을 따온 것입니다. 그 프로그램은 단어가 어떻게 군집화되는지 예측하였으며, 따라서 Word2vec은 특정 유형의 데이터에 대한 신경망을 대표하는데 사용되었습니다.

그러나 Data2vec의 경우, Baevski와 동료들은 2017년 Google의 Ashish Vaswani 및 동료들이 개발한 Transformer라는 신경망을 가져와 여러 데이터 유형에 사용할 수 있도록 확장시켰습니다. 신경망의 동일한 구조는 이미지, 음성 및 텍스트를 모두 훈련하는 데 사용될 수 있으며, 각각의 특징을 맞추기 위해 수정될 필요가 없으므로 종합적인 프로그램입니다.

Baevski와 동료들은 Transformer를 “자기지도” 학습으로 확장합니다. 자기지도 학습에서는 신경망이 서로 비교되는 여러 단계를 통과해야 훈련됩니다.

먼저, 네트워크는 데이터 샘플을 압축하고 입력 데이터의 표현을 구성합니다. 그런 다음, 네트워크의 두 번째 버전은 일부 입력 데이터 항목을 “마스크”하여 공개되지 않도록 합니다. 두 번째 네트워크는 첫 번째 버전의 네트워크가 생성한 표현을 재구성해야 하는데, 이는 빈칸을 채우는 것을 통해 데이터가 어떻게 맞게 연결되는지에 대한 더 나은 모델을 구축하도록 두 번째 네트워크를 강제합니다.

또한: AI의 진정한 목표는 더 이상 지능이 아닐 수도 있다

압축된 전체 입력 데이터의 표현을 갖는 첫 번째 네트워크와 불완전한 버전의 표현을 재구성하려고 하는 두 번째 네트워크는 각각 Teacher와 Student로 적절하게 불리며, 두 번째 네트워크는 가리킨 것처럼 마스크 처리된 데이터의 빈칸을 채워가며 이미 선생님이 달성한 내용을 재구성하려고 노력합니다.

주요 내용

  • Apple Mac Studio M2 Ultra 리뷰: 새로운 플래그십 Mac 데스크탑입니다.
  • Claude AI가 ChatGPT에서 할 수 없는 4가지 작업
  • 저는 수백 개의 스마트 워치를 테스트하지만, 이것은 내 손목에 끼고 있는 것입니다.
  • 최고의 전기 드라이버: 반으로 시간을 절약하여 DIY 및 수리 작업을 완료하세요.

이번에는 Data2vec을 더 빠르게 만들기 위해 두 가지 주요한 변경 사항을 도입했습니다: “합성곱(convolutions)”을 사용하고, “선생님 네트워크의 압축 표현을 할인(amortizing)”합니다.

첫 번째로, 선생님의 표현을 예측해야 하는 학생 네트워크는 이제 Transformer의 일부인 디코더를 사용하지 않습니다.

이는 선생님 네트워크의 압축 표현을 어떤 의미에서 해제하는 표준적인 접근 방식입니다. 대신, 저자들은 컨볼루션 신경망(convolutional neural networks)이라는 것을 사용합니다. 이는 압축된 형태로 데이터 샘플을 표현하는 데에 사용되는 신경망의 기본 도구로서, Transformer보다 훨씬 오래된 기술입니다. 이는 프로그래밍에서 오래된 기술이 어떻게 계속 사용될 수 있는 좋은 예입니다.

“Transformer 기반 디코더 대신, 우리는 더 작은 합성곱 디코더를 사용하고, 이렇게 하면 훈련하기 더 쉽고 빠릅니다,”라고 저자들은 씁니다.

두 번째 변경 사항으로, 선생님 네트워크에서 반복적으로 압축된 표현을 생성하는 대신, 새로운 Data2vec은 표현을 한 번만 생성합니다. 그리고 이를 마스킹된 데이터 포인트 각각의 추측 대상으로 재사용합니다.

저자들은 이렇게 말합니다: “선생님 모델 계산 비용을 할인하기 위해, 우리는 훈련 샘플의 M개의 다른 마스킹된 버전을 고려하고, 동일한 대상 표현에 대한 손실을 계산합니다.”

Data2vec 2.0의 아키텍처. 이번에는 Meta가 프로그램의 두 번째 부분인 Transformer 기반 디코더를 컨볼루션 신경망을 기반으로 한 디코더로 대체했습니다. 또한 “선생님” 네트워크의 압축된 표현을 “학생” 네트워크의 다중 마스킹 인스턴스의 단일 대상으로 재사용했습니다.

논문의 결과 섹션에서 Baevski와 팀은 이미지 인식, 음성 인식 및 자연어 처리라는 세 가지 도메인 전반에 걸쳐 훈련 시간을 줄이고 정확도를 향상시켰다고 밝혔습니다.

이미지 처리에 대해서는, 저자들은 Data2vec을 “ViT”(비전 트랜스포머)이라는 작업에 대한 기반으로 사용했습니다. 이는 작년에 Google의 Alexey Dosovitskiy와 동료들이 소개한, 비전 작업에 특화된 신경망입니다. Data2vec 프로그램은 사전 훈련된 기반 모델이며, ViT은 이를 세밀하게 조정하는 과정입니다.

1월의 결과와 비교하면, Data2vec을 기반으로 한 ViT은 다시 한 번 ImageNet에서 다른 신경망을 능가하는 정확도를 보여주었으며, 이전 버전의 Data2vec도 능가했습니다.

하지만 정확도 외에도, 새로운 Data2vec은 훨씬 적은 훈련 에포크를 거쳤습니다. 이전 Data2vec은 800번의 에포크가 필요했지만, 이번에는 150번으로 줄였습니다. 또한, 경쟁하는 자기 지도 학습 네트워크인 마스킹된 오토인코더(MAE)와 비교하면, 훈련 에포크가 1,600번에서 100번으로 줄어듦에도 불구하고, 새로운 Data2vec의 정확도가 MAE를 능가했습니다. 더 빠른 훈련 과정은 Data2vec 2.0의 훈련 시간을 66시간으로 줄였으며, MAE의 경우 113.6시간이 소요됩니다.

또한: 인공지능: 모든 것을 바꿀 수 있는 5가지 혁신적인 응용

음성 인식에서는, 주어진 음성 문구의 빠진 부분을 채우는 것이 작업입니다. 새로운 Data2vec은 원래의 Data2vec 및 Wav2vec, HuBERT 및 WavLM이라는 프로그램과 경쟁하였습니다. 어느 경우에도 Data2vec 2.0이 이러한 네트워크들을 이기지는 못했지만, “더 빠른 훈련 시간으로 더 높은 정확도”를 달성했습니다. 예를 들어, Data2vec 2.0의 43시간 훈련은 원래의 Data2vec에는 57시간이 소요됩니다.

세 번째로, 자연어 처리에서는 Data2vec 2.0이 2019년 NYU의 Courant Institute of Mathematical Sciences에서 개발된 General Language Understanding Evaluation(GLUE) 프레임워크를 통해 다양한 도전에 대해 테스트되었습니다.

한 테스트에서는, 네트워크가 한 문장이 다른 문장으로부터 유도되는지를 예측해야 합니다. 다른 대표적인 작업에서는 네트워크가 문구가 문법적으로 정확한지를 라벨링해야 합니다.

Data2vec 2.0은 원래의 Data2vec과 Google의 BERT, 그리고 2019년에 Paul Allen School of Computer Science at University of Washington과 Meta에서 소개된 개선된 버전인 RoBERTa와 경쟁하였습니다. 이때 Data2vec 2.0은 GLUE 결과에서 높은 성적을 거두면서 훈련 시간도 빨랐습니다.

이 새로운 버전의 GLUE 작업 전체 평균 정확도 점수는 82.6으로, 원래 Data2vec의 82.7보다 약간 낮지만 BERT의 81.2보다 높으며 RoBERTa의 82.5보다 높습니다. 그러나 Data2vec 2.0은 해당 수준에 도달하는 데 28.2시간이 걸리며, 원래 Data2vec에 걸린 69시간의 절반 이하이며 RoBERTa에 걸린 50.5시간보다 훨씬 적습니다.

또한: 인공 지능을 구축하는 사람들은 가장 많이 필요한 사람들입니다

Baevski와 팀은 Data2vec을 앞으로 음성, 이미지 및 텍스트 이외의 다른 형태의 데이터로 확장할 것이라고 작성하고 있으며, 이로 인해 Data2vec은 더욱 일반화된 기능을 갖출 수 있을 것으로 전망됩니다.

하나의 제한 사항은 계속 유지될 것으로 보입니다. 원래 Data2vec과 마찬가지로 2.0 버전은 트레이닝 중에 네트워크에 처음 입력되는 각 데이터 유형을 다르게 처리합니다. 이는 Data2vec이 아직 데이터 유형을 완전히 일반화하는 방법을 개발하지 못했다는 것을 의미합니다.

이미지, 음성 및 텍스트는 모두 데이터의 사전 처리에 의해 준비됩니다. 이러한 방식으로 네트워크의 다중 모달 측면은 여전히 데이터에 대한 단서에 의존하며, 팀이 “작은 모달리티-특정 입력 인코더”라고 지칭하는 것입니다.

또한, 교사 네트워크에서 각 데이터 유형에 대해 압축된 인코딩이 별도로 생성됩니다. 한 번에 모든 데이터 유형을 하나의 표현으로 결합할 수 있는 “슈퍼 인코딩”을 아직 만들 수 있는 능력은 없습니다.

따라서 Data2vec 1.0과 마찬가지로, 모든 것을 통치할 수 있는 하나의 네트워크가 되는 신경망은 여전히 미래 기술입니다.

원래 Data2vec과 마찬가지로 Meta는 코드를 GitHub에 게시했습니다.