[Nature] 최대 100개 언어, 통합 음성 및 텍스트 기계 번역 연구결과 공개

두 언어 간의 음성을 번역하는 데 도움이 되는 도구인 바벨 피쉬를 만들려면 고급 기술 혁신과 언어 전문 지식이 필요하다. 여러 개의 하위 시스템이 계단식으로 번역을 수행하는 기존의 음성 대 음성 번역 시스템이 있지만, 확장 가능하고 성능이 뛰어난 통합 시스템은 여전히 탐색되지 않고 있다.
이러한 격차를 해소하기 위해 이번 논문에서는 음성 대 음성 번역(101~36개 언어), 음성 대 텍스트 번역(101~96개 언어), 텍스트 대 음성 번역(96~36개 언어), 텍스트 대 텍스트 번역(96개 언어) 및 자동 음성 인식(96개 언어)을 지원하는 단일 모델인 SEAMLESSM4T(Massively Multilingual and Multimodal Machine Translation)를 소개한다.

자동으로 정렬된 음성 번역 및 기타 공개적으로 사용 가능한 데이터의 새로운 멀티모달 코퍼스를 사용하여 구축된 SEAMLESSM4T는 음성과 텍스트 모두를 영어로 번역할 수 있는 최초의 다국어 시스템 중 하나이다. 또한 기존의 최첨단 계단식 시스템보다 성능이 뛰어나 음성-텍스트 및 음성-음성 작업에서 각각 최대 8% 및 23% 더 높은 BLEU(Bilingual Evaluation Understudy) 점수를 달성했다. 품질 외에도 견고성을 테스트했을 때, 개발사 시스템은 평균적으로 음성-텍스트 작업에서 배경 소음 및 화자 변화에 대해 이전 최첨단 시스템보다 약 50% 더 회복력이 좋았다.
번역 안전성을 평가하기 위해 SEAMLESSM4T를 추가 유독성 및 성별 편향에 대해 평가했다. 전자의 경우 훈련 또는 추론 시간에 작동하는 추가 유독성 완화를 위한 두 가지 전략을 포함했다. 마지막으로, 이 연구에 대한 모든 기여는 포괄적 음성 번역 기술에 관한 추가 연구를 추진하기 위해 비상업적 용도로 공개적으로 제공된다.
*Source : https://www.nature.com/ (네이쳐지, 연구결과 바로가기)