國際最新研究稱，一人工智能模型能翻譯200種不同語言

2024年06月08日 15:51　來源：中國新聞網

大字體

小字體

分享到：

　　中新網北京6月8日電 (記者孫自法)國際著名學術期刊《自然》最新一篇人工智能(AI)研究論文稱，研究人員開發出一個Meta人工智能模型的底層技術，該模型能翻譯200種不同語言，增加了能用機器翻譯的語言數量。

　　該論文介紹，神經機器翻譯模型利用人工神經網絡翻譯各種語言，這些模型通常需要大量可在線獲取的數據加以訓練，但并非所有語言數據都公開、低成本或是普遍可及，此類語言被稱為“低資源語言”。而增加模型在翻譯語言數量上的語言輸出可能會影響模型的翻譯質量。

　　為此，本篇論文作者、“不落下任何語言”(No Language Left Behind，NLLB)團隊開發出一種跨語言技術，能讓神經機器翻譯模型學習如何利用翻譯高資源語言的預存能力來翻譯低資源語言。作為成果，NLLB團隊開發了一個在線多語言翻譯工具，名為NLLB-200，該工具能容納200種語言，其低資源語言數量是高資源語言的三倍，翻譯表現比已有系統高了44%。

　　由于NLLB團隊在許多低資源語言上只能獲取1000-2000例樣本，為擴大NLLB-200的訓練數據量，他們用一個語言識別系統發現了這些特定語言的更多實例。該團隊還從互聯網存檔中挖掘雙語文本數據，幫助提升了NLLB-200的翻譯質量。

　　《自然》同期發表同行專家“新聞與觀點”文章指出，NLLB團隊研發的這個工具，可以幫助很少被翻譯的那些語言的使用者，讓他們能使用互聯網和其他技術。

　　此外，NLLB團隊還強調教育是一個非常重要的應用，因為這個模型可以幫助低資源語言使用者獲取更多圖書和研究文章。不過，該團隊也提醒說，誤譯的情況仍有可能出現。(完)

【編輯:李潤澤】

更多精彩內容請進入社會新聞