자막 작성을 위해서는 인간이 여전히 접근 가능한 AI 기술의 핵심입니다.

인간이 여전히 접근 가능한 AI 기술이 자막 작성에 중요합니다.

인공지능 (AI) 서비스에 대한 인간 감독의 필요성을 강조하는 이유는 오디오 전사, 자막 및 자동 음성 인식 (ASR)의 복합적인 세계가 인간 입력을 대체하지 않고 보완하는 응용 프로그램을 요구하기 때문입니다.

자막과 자막은 청각 장애자나 청각 장애가 있는 시청자에게 미디어 및 정보 접근을 제공하는 데 중요한 역할을 합니다. 이들은 지난 몇 년 동안 인기가 급증했습니다. 장애인 옹호자들은 수십 년 동안 더 나은 자막 옵션을 요구해왔으며, 온디맨드 스트리밍 서비스의 확산과 더욱 관련성이 높아져 왔습니다. 비디오 기반 플랫폼도 AI를 빠르게 채택했으며, YouTube는 비디오 전체를 요약하는 새로운 AI 기능의 초기 테스트를 발표하고 TikTok은 자체 챗봇을 탐색하고 있습니다.

그러므로 기술의 한계를 극복하기 위한 AI에 대한 성장하는 열풍으로 자동 자막에 최신 AI 도구와 서비스를 활용하는 것은 논리적인 다음 단계처럼 보일 수 있습니다.

비디오 접근성 및 자막 서비스 회사인 3Play Media는 최근 발표한 2023년 자동 음성 인식 보고서에서 근원 AI 도구가 청각 장애와 청각 장애가 있는 시청자가 주로 사용하는 자막에 미치는 영향에 초점을 맞췄습니다. 조사 결과, 새롭고 빠르게 진보하는 AI 서비스가 혼합되는 경우에는 간단한 정확도 이상의 사항들을 사용자가 인식해야 합니다.

자동 음성 인식의 정확도

3Play Media의 보고서는 다양한 ASR 엔진 또는 AI 기반 자막 생성기의 단어 오류율 (정확하게 전사된 단어 수) 및 형식 오류율 (전사된 파일의 단어 및 형식의 정확도)을 분석했습니다. 다양한 ASR 엔진은 뉴스, 고등 교육 및 스포츠 등 다양한 산업에 통합되어 있습니다.

보고서는 “고품질의 ASR이 반드시 높은 품질의 자막을 의미하지는 않는다”고 밝혔습니다. “단어 오류율에 대해서도 최고 엔진만 약 90% 정확하게 작동하며, 형식 오류율에 대해서는 약 80% 정확하게 작동합니다. 이는 법적 규정 및 접근성을 위한 99% 정확도, 즉 업계 표준에 충분하지 않습니다.”

장애인 평등법 (ADA)은 주변 및 지역 정부, 사업체 및 대중을 대상으로 하는 비영리 단체가 청각 장애와 청각 장애가 있는 사람들을 위해 “커뮤니케이션 장애가 있는 사람들과 효과적으로 소통”해야 한다고 요구합니다. 텔레비전에 대한 연방 통신위원회 (FCC) 준수 규정에 따르면 자막은 정확하고 동기화되며 연속적이고 적절한 위치에 있어야 “가능한 한 최대한으로” 됩니다.

데이터 세트 전반에서 자막 정확도는 다른 시장 및 사용 사례에 따라 크게 변동했습니다. “뉴스와 네트워크, 시네마 및 스포츠는 ASR이 정확하게 전사하기 어렵습니다”라고 3Play Media는 쓰고 있습니다. “이러한 시장은 종종 배경 음악, 겹치는 말 및 어려운 오디오와 함께 콘텐츠를 가지고 있기 때문에 단어 오류율과 형식 오류율의 평균 오류율이 가장 높습니다. 뉴스와 네트워크가 가장 정확하지 않습니다.”

전반적으로 3Play Media의 2022년 보고서 이후 성능이 개선되었지만, 회사는 오류율이 여전히 높아 모든 시장에서 인간 편집자 협력을 필요로 한다고 결론을 내렸습니다.

인간을 계속 참여시키기

소비자부터 산업용까지의 전사 모델은 여러 해동안 AI 생성 오디오 자막을 통합해왔습니다. 많은 기업은 이미 “인간 참여” 시스템을 사용하고 있으며, 이 과정에서 ASR (또는 AI) 도구와 인간 편집자를 모두 통합합니다. Rev와 같은 자막 및 전사 서비스 회사는 완전히 접근 가능한 비주얼 미디어를 만들기 위한 오디오-비주얼 동기화, 화면 형식 지정 및 기타 필요한 단계에서 인간 편집자의 중요성을 강조했습니다.

삭제된 트윗일 수 있습니다.

인간 참여 (HITL) 모델은 일반적으로 생성 AI 개발에서 내재적 편견을 모니터링하고, 인간 주도의 의사 결정으로 생성 AI를 안내하기 위해 홍보되었습니다.

세계 웹 컨소시엄 (W3C)의 웹 접근성 이니셔티브는 자막 및 자막에 대한 인간 감독의 중요성을 오랫동안 강조해 왔으며, 그 가이드라인에 언급되어 있습니다. “자동 생성된 자막은 사용자의 요구 사항이나 접근성 요구 사항을 충족하지 않으며, 일반적으로 상당한 편집이 필요합니다”라고 이 기관의 가이드라인은 명시하고 있습니다. “정확한 자막 및 전사를 개발하기 위한 시작점으로 자동 생성된 자막을 사용할 수 있습니다.”

그리고 3Play Media가 2021년에 실시한 실시간 인간 생성 전사의 중요성에 관한 보고서에서도 비슷한 망설임을 언급했습니다.

“AI는 인간과 같은 문맥화 능력이 없기 때문에, ASR이 단어를 오해할 경우 무관련한 내용으로 대체되거나 완전히 생략될 가능성이 있습니다,” 회사는 말합니다. “실시간 자막 정확도에 대한 명확한 법적 요구 사항은 현재 존재하지 않지만, 기록된 콘텐츠에 대한 연방 및 주 자막 규정은 액세스 가능한 편의 시청자에게 동등한 경험을 제공해야 한다고 명시하고 있습니다… AI나 인간 자막 제공자 모두 100% 정확도를 제공할 수는 없지만, 실시간 자막 작업에서 가장 효과적인 방법은 둘 다를 결합하여 최대한 가까이 이를 수 있는 것입니다.”

환각 플래깅

ASR만 사용하는 경우 정확도가 낮아지는 것 외에도, 3Play Media의 보고서는 AI “환각”의 가능성에 대한 명확한 우려를 언급했습니다. 이러한 환각은 사실에 대한 부정확성과 완전히 허구된 문장의 포함 형태로 나타납니다.

넓게 보면, AI 기반 환각은 AI 생성 텍스트에 대한 불만의 주요 요소 중 하나가 되었습니다.

1월에는 잘못된 정보를 감시하는 NewsGuard가 ChatGPT가 “나쁜 행위자”를 위장한 사용자에게 오도된 주장을 생성하고 전달하는 데 얼마나 쉽게 사용되는지에 대한 연구를 발표했습니다. 이 연구는 AI 봇이 잘못된 뉴스 이벤트에 대해 거짓 정보를 100번 중 80번 공유하는 것을 확인했습니다. 6월에는 미국의 라디오 호스트가 OpenAI의 챗봇인 ChatGPT가 연방 법원 사건에 대한 세부 정보를 검색하는 사용자에게 호스트에 대한 오보 “사실”을 제공한 것으로 주장하여 명예 훼손 소송을 제기했습니다.

지난 달에는 아마존, Anthropic, Google, Inflection, Meta, Microsoft 및 OpenAI를 포함한 AI 리더들이 바이든-해리스 행정부와 “AI 기술의 안전하고 투명한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 안전한 개발을 위한 AI 리더들은 바이든-해리스 행정부와 “안전하고 투명한 AI 기술의 개발을 위해 움직이는 데 도움을 주기 위해 만나기도 했습니다.” 참석한 모든 회사는 공공의 안전, 안전 및 신뢰를 보장하기 위한 여덟 가지 약속에 서명했습니다.

일상적인 기술에 AI를 통합하는 것과 텍스트 생성 AI의 다른 형태를 통해 접근성을 확보하려는 개발자들에게는 환각과 같은 부정확성이 사용자에게 큰 위험을 초래한다고 3Play Media는 설명합니다.

“접근성 측면에서, 환각은 청각 장애인 및 도청 장애인 시청자에게 정확성의 가짜 표현을 제공하는 더 심각한 문제입니다,” 보고서는 설명합니다. 3Play는 잘 구두점이 찍히고 문법적인 문장을 생산하는 데 대한 인상적인 성능에도 불구하고, 현재 환각과 같은 문제는 사용자에게 높은 위험을 야기한다고 말합니다.

산업 리더들은 계속된 훈련으로 환각을 해결하려고 노력하고, 빌 게이츠와 같은 기술 업계의 주요 인물들은 극도로 낙관적입니다. 그러나 접근 가능한 서비스가 필요한 사람들은 개발자들이 자신들의 AI 시스템을 완벽하게 개선하기를 기다리는 시간이 없습니다.

“이러한 환각이 미세 조정을 통해 감소될 수 있다는 가능성은 있지만, 접근성에 대한 부정적인 영향은 심각할 수 있습니다,” 3Play Media의 보고서는 결론지었습니다. “사람 편집자는 청각 장애인 및 도청 장애인과 같은 주요 최종 사용자에게 액세스 가능한 고품질 자막을 제공하는 데 필수적입니다.”

더 많은 사회적 이익과 접근성 이야기를 받아보고 싶으신가요? 매일 Mashable의 최신 소식을 받아보세요.

자막 작성을 위해서는 인간이 여전히 접근 가능한 AI 기술의 핵심입니다.

인간이 여전히 접근 가능한 AI 기술이 자막 작성에 중요합니다.

자동 음성 인식의 정확도

인간을 계속 참여시키기

환각 플래깅

메타(Meta)가 오픈소스 인공지능 음악 생성기...

다이슨은 Supersonic 헤어 드라이어에 대한 또...

Elon Musk는 X를 위해 ‘애플 세금’...

구글, 검색 결과에서 복수 포르노에 대한 정책...

AI 판사 분석을 통해 법적 서류 습득하기

구글은 곧 연락처 정보가 표시된 검색 결과에 ...

News