본문 바로가기
꿀팁닷컴

페이스 북의 새로운 AI는 언어를 서로 직접 번역할 수 있습니다.

by 보라매꿀주먹 2020. 10. 21.

 

미국, 브라질, 보르네오 또는 프랑스에서 로그온 하든 Facebook은 플랫폼에 게시된 거의 모든 서면 콘텐츠를 자동화된 기계 번역을 사용하여 현지 언어로 번역할 수 있습니다.. 실제로 Facebook은 뉴스 피드에만 매일 약 200억 개의 번역을 제공합니다. 그러나 이러한 시스템은 일반적으로 영어를 중간 단계로 사용합니다. 즉, 중국어에서 프랑스어로 번역하면 실제로 중국어에서 영어에서 프랑스어로 전환됩니다. 이는 영어와의 번역 데이터 세트가 방대하고 널리 사용 가능하지만 영어를 중간에 두면 전체 번역 정확도가 떨어지고 전체 프로세스가 필요 이상으로 복잡하고 복잡해지기 때문에 수행됩니다. 그렇기 때문에 Facebook AI는 영어를 버팀목으로 사용하지 않고도 두 언어 (중국어에서 프랑스어로, 프랑스어에서 중국어로)를 양방향으로 직접 번역할 수 있는 새로운 MT 모델을 개발했으며, BLEU 메트릭에서 영어 중심 모델보다 10 포인트 더 뛰어난 성능을 보입니다. .

 

“가장 큰 문제는 우리가 가지고 있는 번역 시스템을 어떻게 활용하고 실제로 전 세계 사람들의 수요를 충족 시키는가 하는 것입니다. Facebook AI의 연구원인 Angela Fan은 Engadget에 말했습니다. “그래서 사람들이 실제로 원하는 모든 언어와 모든 방향으로 번역하고 있습니다. 예를 들어, 사람들이 다국어를 구사하는 지역은 많지만 영어가 아닌 기존 번역 시스템은 영어 전용 데이터에 크게 의존합니다. " 페이스 북 플랫폼에 160 개 언어로 매일 게시되는 수십억 개의 게시물 중 2/3가 영어가 아닌 다른 언어로 작성되었다고 그녀는 지적했다.

 

M2M-100이라는 이름의 Facebook은 100 개 언어 세트 중 어떤 쌍 으로 들 직접 번역할 수 있는 최초의 다국어 기계 번역 모델 (MMT)이라고 주장합니다. 전체적으로 FBAI는 100개 언어에 대한 75억 문장으로 구성된 방대한 데이터 세트를 구성했습니다. 이를 사용하여 연구팀은 월요일 페이스 북 블로그 게시물에 따르면 "관련 언어에서 정보를 캡처하고 보다 다양한 언어 및 형태학 스크립트를 반영하는"150억 개 이상의 매개 변수가 포함된 범용 번역 모델을 훈련했습니다.

 

이를 위해 Facebook은 다양한 새로운 기술을 사용하여 전 세계에서 공개적으로 사용 가능한 수많은 데이터를 수집해야 했습니다. Fan은 "이 중 많은 부분이 페이스 북에서 수년간 연구해온 작업을 기반으로 하고 있습니다. 이는 오늘날 시스템을 구축하기 위해 우리가 모아 놓은 모든 다른 레고 조각과 같습니다."라고 Fan은 설명했습니다.

 

시작하기 위해 팀 은 웹 크롤링 데이터의 공개 저장소를 유지 관리하는 CommonCrawl을 사용하여 웹에서 텍스트 예제를 수집했습니다. 그런 다음 그들은 몇 년 전 페이스 북이 개발하고 오픈 소스 한 텍스트 분류 시스템인 FastText를 사용하여 텍스트의 언어를 식별하기 시작했습니다. "기본적으로 몇 가지 테스트를 살펴보고 어떤 언어로 작성되었는지 결정하려고 합니다."라고 Fan은 말했습니다. "그래서 우리는 웹의 여러 텍스트를 이러한 모든 다른 언어로 분할한 다음 번역할 문장을 식별하는 것이 목표입니다."

 

“전통적으로 사람들은 번역 데이터를 생성하기 위해 사람 번역기를 사용합니다. "예를 들어 영어와 타밀어를 구사하는 사람을 찾기가 어렵 기 때문에 대규모로 어렵지만 영어가 아닌 번역은 여전히 ​​개선이 필요한 영역이기 때문에 프랑스어와 타밀어를 함께 사용하는 사람을 찾기가 더 어렵습니다."

 

필요한 데이터를 대규모로 채굴하기 위해 Fan 팀은 LASER 시스템에 크게 의존했습니다. "그것은 문장을 읽고, 텍스트를 취하고, 같은 의미를 가진 문장이 같은 생각에 매핑 되도록 그 텍스트의 수학적 표현을 만듭니다."라고 그녀는 말했습니다. “그러므로 중국어와 프랑스어로 한 문장이 있는데 그들이 같은 말을 한다면 벤 다이어그램처럼 겹치는 부분은 우리가 정렬된 문장이라고 생각하는 텍스트의 종류입니다.”

 

물론 모든 언어가 인터넷에서 많은 양의 서면 콘텐츠를 사용할 수 있는 것은 아닙니다. 이러한 상황에서 Fan 팀은 단일 언어로 작성된 데이터인 단일 언어 데이터로 전환했습니다. Fan은 중국어에서 프랑스어로의 예를 사용하여“내 목표가 중국어에서 프랑스어로 번역하는 것이지만 어떤 이유로 인해 품질이 좋지 않으면 텍스트 단일 언어 데이터를 가져와서 개선하려고 노력할 것입니다. 프랑스어. 제가 하는 일은 시스템의 역을 훈련하는 것입니다. 저는 프랑스어에서 중국어로 이동합니다. 예를 들어, Wikipedia에서 프랑스어를 모두 가져와서 중국어로 번역합니다. "

 

이렇게 하면 수많은 기계 생성 "합성"데이터가 생성됩니다. “그래서 저는 역 번역된 프랑스어를 기반으로 이 합성 중국어를 만든 다음이를 앞으로 모델에 다시 추가할 것입니다. 따라서 중국어에서 프랑스어로 이동하는 대신 중국어와 보충된 합성 중국어를 모두 프랑스어로 사용합니다. 그리고 이것은 입력 측과 출력 측 모두에 새로운 예제를 추가하기 때문에 모델이 훨씬 더 강력해질 것입니다.”

 

이것이 전 세계 6,200여 개 이상의 음성 언어를 무손실로 번역할 수 있는 디지털 바벨 피쉬로 이어질지 여부는 아직 밝혀지지 않았습니다. Fan은 이 프로젝트의 궁극적인 성공은 AI가 활용할 수 있는 리소스의 양에 달려 있다고 말합니다. 프랑스어, 중국어, 독일어, 스페인어 및 힌디어와 같은 주요 언어의 경우 이러한 리소스는 방대합니다. Fan은“사람들은 이러한 언어로 웹에 수많은 텍스트를 작성합니다. "그들은 정말 많은 데이터를 도울 수 있었고 우리 모델은 이 데이터를 사용하여 더 나아질 수 있었습니다."

 

“저는 리소스가 매우 부족한 언어에 대해 개선이 필요할 수 있는 많은 영역을 개인적으로 식별합니다.”라고 그녀는 계속했습니다. "아프리카 언어의 경우 우리는 스와힐리어와 아프리칸스어에 능숙하고 Zulu와 같은 언어에 많은 개선을 사용할 수 있으며 이러한 언어에는 직면해야 할 추가 연구 과제가 있습니다."

 

Facebook은 추가 발전에 박차를 가하기 위해 연구 커뮤니티에 데이터 세트, 모델, 교육 및 평가 설정을 오픈 소스로 공개하고 있습니다. 회사는 또한 독립적으로 시스템을 계속 개발하고 궁극적으로 기술을 일상 업무에 적용할 계획입니다.