메타의 대규모 다국어 번역 작업은 여전히 그리스어, 아르메니아어, 오로모어에서 어려움을 겪고 있습니다.

메타의 대규모 다국어 번역 작업은 여전히 어려움을 겪고 있습니다.

“넓게 접근 가능한 기계 번역 시스템은 약 130개 언어를 지원하며, 우리의 목표는 이 숫자를 200개로 늘리는 것입니다,” 저자들은 자신들의 미션 성명으로 쓰고 있습니다.

페이스북, 인스타그램 및 WhatsApp의 소유주인 Meta는 수요일 기계 번역 분야에서의 최신 노력인 190페이지로 이루어진 기계 번역에 대한 최신 연구 결과를 공개했습니다. 이 보고서에서는 Meta가 딥 러닝 형태의 신경망을 사용하여, 많은 언어, 특히 서부 중앙 오로모(Oromia 주의 언어), 알제리 및 북아프리카의 기타 지역에서 사용되는 타마셱(Tamasheq) 및 필리핀의 와라이(Waray) 언어와 같은 “저자원” 언어를 포함하여 202개 언어로 번역의 최첨단 기술을 2배로 했다는 내용이 담겨 있습니다.

Meta의 연구팀은 UC 버클리와 존스 홉킨스 대학의 학자들과 함께 작성한 “언어를 끊어낸다: 인간 중심의 기계 번역 확장”이라는 보고서는 Facebook의 AI 연구 웹사이트에 게시되어 있으며, 이와 함께 동반 블로그 게시물도 있으며, 이 둘은 매우 상세한 내용을 담고 있으므로 필독해야 합니다.

“넓게 접근 가능한 기계 번역 시스템은 약 130개 언어를 지원하며, 우리의 목표는 이 숫자를 200개로 늘리는 것입니다,” 저자들은 자신들의 미션 성명으로 쓰고 있습니다.

간단한 개요는 ENBLE의 Stephanie Condon의 개요 보고서를 확인하세요. Stephanie은 Meta가 GitHub에서 데이터 세트와 신경망 모델 코드를 오픈소스로 제공하고, 기술의 외부 사용에 대해 20만 달러의 상금을 제공하고 있다고 전합니다. 회사는 위키피디아 소유주인 Wikimedia Foundation과 협력하여 위키피디아 문서에 개선된 번역을 제공하고 있습니다.

또한: Meta의 최신 AI 모델은 수백 개의 언어로 콘텐츠를 제공할 것입니다.

보고서에는 자동 점수화 시스템에서 나타난 언어 그룹의 평균 점수 향상에도 불구하고, 번역의 품질에 대한 인간 평가에서는 연구자들의 신경망인 “No Language Left Behind Two Hundred”(NLLB-200)가 오로모어와 그리스어, 아이슬란드어와 같이 번역 자료가 풍부한 언어를 포함한 일부 언어 사례에서 큰 개선을 보이지 않는다는 의외의 사실이 있습니다.

이 교훈은 평균 점수를 높이는 능력에도 불구하고, 번역이 의미 있는지에 대한 복잡성은 단순히 자동화할 수 없다는 것입니다. 저자들은 영어에서 다른 언어로 문장을 번역할 때 숫자 신경망을 크게 만들었을 때(즉, 더 강력하다는 의미) 오히려 일부 언어에서는 번역하는 데 부정적인 영향을 발견했습니다.

팀은 저자원 언어의 원어민 수백 명과의 인터뷰를 포함하여 번역을 개선하기 위해 여러 가지 조치를 취했습니다. (지나치게 많은 관심으로 압도될 수 있는 저자원 언어와 관련된 현장 작업의 윤리와 저자원 언어의 윤리에 대한 상세한 논의가 논문에 있으므로 특별한 주의가 필요합니다.)

또한: Google의 대규모 언어 번역 작업은 잘못된 부분을 식별합니다.

그러나 이 연구의 핵심은 신경망을 훈련시키기 위해 새로운 데이터 세트를 만들기 위해 큰 노력을 기울였다는 점입니다. 그들은 신경망에 훈련시킬 NLLB 데이터 세트를 수동으로 만들기도 했습니다. “공개적으로 사용 가능한 훈련 데이터의 크기가 상당히 커도, NLLB-Seed로 훈련하는 것이 평균적으로 훨씬 더 높은 성능을 보여줍니다,” 저자들은 말합니다.

NLLB 노력은 여러 단계를 포함하며, 양방향 언어 쌍의 공개적으로 사용 가능한 텍스트를 조사하고, 자동화된 방법을 통해 언어를 식별하고, 거대한 훈련 데이터 세트를 생성하고, NLLB-200 신경망을 훈련시키고, 인간 번역자가 만든 새로운 벤치마크 데이터 세트인 FLORES-200에서 프로그램을 평가합니다.

Meta 팀만이 이러한 거대한 데이터 세트 노력을 하는 것은 아닙니다. 구글 과학자들은 5월에 비슷한 종류의 대규모 다국어 노력을 선보였는데, 그들은 200개 이상의 언어에서 백만 개 이상의 문장과 400개 이상의 언어에서 40만 개 이상의 문장을 웹에서 조사할 수 있었습니다.

그러한 훈련 데이터 세트는 그들의 신경망인 NLLB-200을 구성하는 데 사용됩니다. 그들은 대부분의 언어 번역에 기반이 되는 구글의 보편적인 Transformer 언어 모델로 시작합니다.

그들은 540억 개의 매개 변수 Transformer를 사용하는데, 이는 크지 않습니다 (몇몇 모델은 조금씩 1조 개의 매개 변수에 접근하고 있습니다), 하지만 그들은 중요한 수정을 가합니다.

네트워크의 개별 레이어 사이인 “어텐션 헤드”라고 알려진 곳에, 저자들은 “희소한 게이트 혼합”이라고 알려진 조건부 실행 분기를 교차로 배치합니다. 기본적으로 전문가들은 예측을 할 때 540억 개의 매개 변수 중 일부를 켜거나 끌 수 있으므로 신경망은 각 작업마다 자신의 특성을 변경할 수 있습니다.

그들은 “희소한 게이트 혼합 전문가(MoE) 모델은 입력마다 모델 매개 변수의 하위 집합을 활성화하는 조건부 계산 모델의 한 유형으로, 모든 입력마다 모델 매개 변수를 활성화하는 밀집 모델과 대조됩니다,”라고 설명합니다. MoE의 가치는 “핵심 밀집 아키텍처와 비교하여 FLOPs(초당 부동 소수점 연산) 측면에서 동일한 추론 및 훈련 효율성을 유지하면서 상당한 표현 용량을 확보한다”고 설명합니다.

NLLB-200 네트워크는 왼쪽의 Transformer 모델의 표준 어텐션 블록 사이에 “전문가 혼합” 요소를 삽입합니다.

(저자들은 이 접근 방식에 대한 적절한 지점을 발견했습니다: “매 4개의 Transformer 블록마다 MoE [전문가 혼합] 레이어를 삽입하는 것이 가장 좋은 성능을 보입니다. 특히 매우 낮은 자원 설정에서의 성능을 개선합니다.”)

훈련 세트와 함께, 저자들은 새로운 벤치마크 데이터 세트인 FLORES-200를 개발합니다. 이는 이전의 Flores-101이라는 노력의 언어 커버리지를 두 배로 늘리는 고품질의 다대다 벤치마크 데이터 세트입니다. 이 데이터 세트는 “FLORES 원본 데이터 세트를 대상 언어로 번역하는 전문적인 인간 번역가들과 번역 품질 평가를 수행하는 독립적인 번역 검토자들이 생성합니다.”

그런 다음, 그들은 NLLB가 FLORES-200에서 어떻게 수행되는지 테스트합니다.

위의 요약 부분에서 언급된 대로, 일반적인 자동화된 점수인 BLUE 및 chrF와 같은 기준으로 이전 번역 프로그램과 비교하여 44%의 개선이 있습니다. 저자들은이러한 점수의 다른 버전들 사이의 상세한 비교를 수행합니다.

자동화된 점수 외에도, 저자들은 번역을 읽고 점수를 매기도록 인간을 활용하며, 여기서 일부 결함이 나타납니다. Meta 팀은 “의미적 텍스트 유사성”이라는 2012년에 Eneko Agirre와 동료들이 처음 제안한 프로토콜을 사용합니다. 그들은 5점 척도로 번역을 평가하라고 XSTS라고 불리는 변형을 도입했습니다.

“간략히 말해서, XSTS는 유창성보다 의미 보존에 더 초점을 맞춘 인간 평가 프로토콜입니다,”라고 저자들은 씁니다.

“저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들은 “저자들

하지만 조금 더 깊이 파고들면 더 많은 균열이 나타납니다. 이런 거대한 노력은 통계적 기업이며, 어떤 통계적 기업에서는 평균이나 중간값보다 점수의 분포가 더 많은 정보를 제공합니다.

아르메니아어에서 영어로, 서부 중앙 오로모에서 영어로, 에티오피아에서 가장 널리 사용되는 언어인 암하라어를 아르메니아어로, 프랑스어를 세네갈의 볼로프족의 모국어인 월로프어로, 힌디어를 같은 이름의 중앙 인도 주의 주요 언어인 차티스가르히어로 번역하는 등 여러 언어 쌍에서는, 기준 모델보다는 거의나 전혀 개선이 없습니다.

인간 리뷰어들이 NLLB-200의 혁신으로부터 아무런 혜택을 받지 못하는 아르메니아어를 영어로, 에티오피아에서 가장 널리 사용되는 언어인 암하라어를 아르메니아어로 번역하는 등 언어 쌍에서 균열이 나타납니다. 영어를 그리스어로 번역하는 것은 기준 모델보다 훨씬 나쁜 결과를 가져왔습니다.

이 같은 성공 사례들 사이에 나타나는 이런 독립적인 예시들은 과학자들이 반성하고 있는 어떤 깊은 진실을 가리킵니다.

저자들은 인간 평가를 해석하지 않고 자동화된 BLUE와 chrF 점수에서 실패한 사례들을 살펴보고, 자신들의 접근법에 제한 사항이나 결점을 가설로 제기합니다.

그들은 쓰기를 하면서, 많은 자원을 갖춘 언어 쌍, 그 중에는 그리스어도 포함되지만, 전문가의 혼합물로 접근하는 것에 혜택을 받지 못하고 있거나, 그들의 프로그램이 너무 강력해져서 “과적합”이 발생하는데, 이는 신경망이 어떤 예제들을 단순히 기억하고 생산적인 표현을 형성하지 않은 경우입니다. 즉, 실제로 아무것도 “배우지” 않은 것입니다.

저자들이 말하자면,

1.3 억 개 [매개변수]의 밀집 모델의 용량이 충분할 것으로 예상되는 고자원 언어 쌍들은 MoE 모델의 추가 용량으로부터 그리 많은 혜택을 받지 않을 것이다.
2. 계산 비용을 갱신 당 증가시키면, 저나 매우 저자원 언어 쌍들이 과적합될 가능성이 증가하여 성능이 저하될 것이다.

저자들은 “마스킹”이라는 다양한 입력의 형태로 “과적합”을 완화시키기 위한 몇 가지 단계를 제안하고 있으며, 전문가의 혼합물에서 “조건부 경로 지정”도 제안합니다.

그리고: GPT-3, AI21의 ‘Jurassic’ 언어 모델이 나타났습니다

보고서에는 다양한 실험 설정에 관한 많은 세부 사항이 있어 모든 결과를 요약하기는 불가능합니다. 저자들은 “현재의 관행을 검토하고 실패한 부분을 개선하기 위해 커뮤니티를 설득하고, 언어를 놓치지 않는 북극성 목표에 대한 미션”이라고 희망합니다.

특히, 선별된 번역 데이터 세트인 FLORES-200은 프로 번역가들을 사용하여 구성하는 데 많은 비용이 듭니다. 그들은 “향후 더 많은 저자원 언어에 대한 Flores-200의 확장은 어려울 수 있다”고 지적합니다.

전체적으로, 저자들은 다학제 접근법이 중요하다고 결론지었습니다.

NLLB를 더 큰 과학 및 연구 커뮤니티와 공유함으로써 다양한 전문 분야의 사람들이 프로젝트 발전에 기여할 수 있도록 할 것입니다. 많은 면에서, NLLB 노력의 구성은 기술적, 문화적, 사회적 발전의 교차점에 위치한 기계 번역의 중요성을 보여줍니다. 그렇기 때문에 모든 각도를 완전히 이해하기 위해 다양한 교육과 시각을 가진 학자들이 필요합니다. 향후 버전에서는 NLLB가 인간 문화와 사회 과학 분야에서의 훈련과 시각을 가진 학자들을 포함하여 더 많은 소수 인종, 성별, 문화적 정체성을 가진 커뮤니티로부터 개발되길 희망합니다. 우리가 개선하려는 사람들의 생활과 유사한 커뮤니티와 같은 다양한 출신지에서 이러한 이니셔티브를 개발하는 팀들이 나올 것을 희망합니다.