解鎖維基百科中的世界語言:MinT 迄今為止的影響力概覽

Cover page  [source of image]

您是否知道維基媒體基金會的機器翻譯 (MinT) 服務支援 40,216 對語言的翻譯嗎?這意味著人們可以將用通用語言編寫的內容翻譯成 MinT 支援的大約 206 種獨特的其他語言,反之亦然。這種廣泛的語言支援增加了翻譯數量,並且使用 MinT 創建的文章的刪除率非常低——這清楚地表明了 MinT 帶來的價值——難怪這在短短幾個月內就成為維基百科中第二大使用率最高的翻譯服務。

2023 年 6 月,維基媒體基金會的語言團隊推出了 MinT——一個突破性的語言翻譯工具。該服務增強了內容章節翻譯工具中的翻譯功能,允許編輯者在原始文章旁邊創建翻譯,並自動執行跨瀏覽器選項卡複製文本、查找相應鏈接和類別等步驟。MinT,託管於維基媒體基金會的基礎設施利用開源神經機器翻譯技術的力量——這不僅簡化了將維基媒體內容翻譯成各種語言的過程,同時將其支援擴展到其他翻譯服務經常忽視的語言。MinT 利用各組織發佈的開源翻譯模型進行營運。目前,這整合了來自四個不同組織的翻譯模型。 您可以在此處了解有關該服務的更多資訊。

借助此基礎設施,MinT 可以從多個以目標語言提供的開源翻譯模型產生維基百科文章(來源內容)的初始翻譯,供使用內容和章節翻譯工具的人士使用。上述內容使我們更接近掌握眾多維基百科語言版本的所有知識的總和。此外,個人參與者和組織可以利用這種開放機器翻譯來滿足他們的特定翻譯需求。

這項翻譯服務提高了首次獲得機器翻譯服務支援的 55 種語言維基百科譯者的生產力水準; 下面來了解 MinT 的影響。 

MinT 前後的翻譯數據

從使用者第一次獲得翻譯支援服務的角度來看,MinT 正在對他們的工作產生積極的影響——讓我們透過分析儀表板來探索資料揭示的內容:

數據顯示每月翻譯數量有顯著變化。過去,每月的翻譯活動很少達到 500 條。然而,在 MinT 推出後的近幾個月裡,我們一直看到發佈的翻譯數量超過 1,000 條,其中 8 月份的峰值達到 2,150 條——與去年 8 月相比,去年 8 月出版的譯文只有 225 篇。

Monthly translations year over year [source of the image]

刪除率通常會隨著翻譯活動的增加而增加,或作為翻譯品質差或翻譯工具濫用的第一個跡象(這可能是由沒有經驗的使用者善意地完成的)。在這種情況下,如下圖所示,MinT 之後翻譯活動的增加並沒有增加每月的刪除率。

Monthly rate of deleted translations from 2019 till date [source of the image]

如下圖所示,基於編輯次數的譯者經驗水平表明,大多數翻譯都是編輯次數超過 1000 次(下圖中的綠線)和 10000 次以上編輯(下圖中的橙色線)的用戶作品。

Monthly translations by user edit count [source of image]

2023 年 8 月至 9 月的機器翻譯整體使用情況來看,MinT 並未有佔據榜首位置。然而,這透過在內容和章節翻譯工具中促進了 3634 次翻譯,成為第二常用的機器翻譯支援服務,證明了其重要性。到目前為止,我們的數據支持了用戶的回饋,即 MinT 是維基百科中一項有價值的服務。

MinT 的下一步

WMF 語言團隊將其服務擴展到翻譯擴展,向 511KeV 等貢獻者(這些貢獻者參與完成了克什米爾語維基百科介面的翻譯。),以及跨我們平台翻譯多語言頁面的人員,例如translatewiki.net維基媒體元維基MediaWiki提供「翻譯建議」服務。這項擴展帶來了新的挑戰,例如支援在純文字模型之上使用維基文本和其他標記來翻譯內容,而標記不會影響或錯誤處理翻譯。 

此外,該團隊正在積極探索 MinT 的使用——以超越維基媒體運動的範圍,接觸貢獻者和維基百科讀者,尋求訪問各種語言的內容,並可能將API作為基礎設施公開給其他社群——上述的工作將使我們更接近全球社會,共享集體知識財富。 

您可以在此頁面上追蹤維基媒體基金會語言團隊的 MinT 翻譯計劃,並透過訂閱語言團隊的季度通訊來了解最近發生的事情。如果您對 MinT 有疑問,請隨時在專案討論頁面上提問。

我們將在幾天內發佈第二篇部落格文章,其中我們將聽取維基媒體編輯的意見以及他們使用該服務的經驗。