當前快報:Meta的AI翻譯器可以解釋無文字的語言 扎克伯格以閩南話舉例
【資料圖】
世界上大約7000種已知的語言中,有將近一半的語言,也就是其中的十分之四是口耳相傳,沒有包含書面內容。這些無文字的語言給現代機器學習翻譯系統帶來了一個獨特的問題,因為它們通常需要在翻譯到新語言之前將口頭語言轉換為書面文字,并將文字還原為語音,但Meta公司已經通過其最新的開源語言AI進展解決了這個問題。
作為Meta公司通用語音翻譯器(UST)項目的一部分,該項目正致力于開發實時語音到語音的翻譯,以便元宇宙居民能夠更容易地進行互動(讀作:互相進行性騷擾)。作為這個項目的一部分,Meta的研究人員研究了福建閩南話,這是一種散居在亞洲各地的無文字語言,也是臺灣地區的主流語言之一。
機器學習翻譯系統通常需要大量可標記的語言例子,包括書面和口語來進行訓練--這正是像閩南話這樣的無文字語言所不具備的。為了解決這個問題,"Meta使用語音到單元的翻譯(S2UT),將輸入的語音直接轉換為Meta以前開創的聲學單元序列,"首席執行官馬克-扎克伯格在周三的一篇博文中解釋說。"然后,我們從這些單元生成波形。此外,UnitY被采用為雙通解碼機制,第一通解碼器生成相關語言(普通話)的文本,第二通解碼器創建單元。"
"我們利用普通話作為中間語言來建立偽標簽,我們首先將英語(或上面說的閩南話)語音翻譯成普通話文本,然后我們再翻譯成閩南話(或英語)并將其加入訓練數據。"目前,該系統允許講福建話的人與講英語的人交談,盡管很生硬,且該模型一次只能翻譯一個完整的句子。但扎克伯格相信,這項技術最終可以應用于更多語言,并將改進到提供實時翻譯的程度。
扎克伯格宣布,除了Meta已經從這個項目中開源的模型和訓練數據外,該公司還將發布一個基于閩南話話語料庫的首個語音翻譯基準系統,以及"語音矩陣,一個用Meta的創新數據挖掘技術LASER挖掘的語音翻譯大料庫"。這個系統將使研究人員能夠創建他們自己的語音到語音翻譯(S2ST)系統。
關鍵詞: 社交網絡 Meta的AI翻譯器可以解釋無文字的
推薦
-
-
-
-
-
-
-
富滿油田累計生產油氣突破1000萬噸大關 我國超深層油氣邁入規模開發新階段
10月9日,中國石油塔里木油田公司富滿油田累計生產油氣突破1000萬噸大關,其中原油867萬噸、天然氣16億...
來源:科技日報 -
-
-
直播更多》
-
浙江大學國際聯合商學院研究員盤和林:堅持“脫虛向實”增強數字經濟發展原動力
浙江大學國際聯合商學院數字經濟與金融...
-
浙江大學國際聯合商學院研究員盤和林:堅持“脫虛向實”增強數字經濟發展原動力
浙江大學國際聯合商學院數字經濟與金融...
-
整合信息技術優勢 南通打造“智慧農業”助力鄉村振興
近日,在江蘇省南通市都市農業公園,眾...
-
重慶首個搭載5G基站的無人飛艇成功試飛 最大設計升空高度達300米
近日,重慶首個搭載5G基站的無人飛艇試...
-
世界上最大天文數碼相機 在斯坦福直線加速器國家加速器實驗室亮相
世界上最大的天文數碼相機在美國能源部...
-
受捕蠅草對飛蟲觸碰刺激響應啟發 科研人員讓水凝膠做到“條件反射”
從中國科學院寧波材料技術與工程研究所...