ウィキペディアンの読書記録 #19 宮川創「言語復興・文化発信のため機械翻訳 :コプト語ボハイラ方言の日常的使用の活性化に向けて」

Translate this post

稲門ウィキペディアン会の Eugene Ormandy です。本稿では、宮川創さんの論文「言語復興・文化発信のため機械翻訳 :コプト語ボハイラ方言の日常的使用の活性化に向けて」における、ウィキペディアに関連する記述を紹介したのち感想を述べます。

Uraniwa, CC0

書誌情報

  • 宮川 創, 言語復興・文化発信のため機械翻訳 :コプト語ボハイラ方言の日常的使用の活性化に向けて, デジタルアーカイブ学会誌, 2024, 8 巻, 3 号, p. 124-128, 公開日 2024/09/17, Online ISSN 2432-9770, Print ISSN 2432-9762, https://doi.org/10.24506/jsda.8.3_124.

内容

本論文はタイトルの通り、コプト語を対象とした機械翻訳の性能比較および、言語復興への活用について論じています。また、コプト語によるオンラインでの情報発信についても紹介されており、インキュベーター段階のコプト語版ウィキペディアが紹介されていました。以下、ウィキペディアに関連する箇所を引用します。

  • オンラインメディアの活用は、コプト語復興に大きな可能性をもたらすと考えられる。特に、機械翻訳技術の発展は、言語資源の少ない言語、すなわち、低資源言語 (low-resource language) の復興に寄与し得る。コプト文化のデジタルアーカイブにおけるコプト語の表示や、コプト語版 Wikipedia などの多言語情報源への翻訳は、言語の保存と普及に直結するだろう。(125ページ)
  • オンライン翻訳サービスの充実は、コプト語の可視性を高め、学習者層の拡大につながるだろう。エジプト国内外に離散したコプト・ディアスポラ、特に若い世代にとって、インターネットを介した手軽なアクセスは、言語習得の大きな助けとなる。スマートフォンで手軽にコプト語の単語や文例を調べられれば、日常的な語学学習の習慣が身につきやすい。Miquel-Ribé と Laniado が示したように、少数言語による Wikipedia のようなオンラインプラットフォームは、少数言語のプレゼンスを高める上で重要な役割を果たす。機械翻訳を活用してコプト語の Wikipedia コンテンツを充実させることで、言語の可視性と学習リソースのアクセシビリティが大幅に改善されるだろう。(126ページ)
  • Miquel-Ribé と Laniado によれば、Wikipedia は文化的コンテキストを言語化・可視化する上で大きな力を持つ。現在、コプト語版の Wikipedia はまだ Wikimedia Incubator の段階で、公式の Wikipedia としての本格的な運用には至っていない。だが、機械翻訳を活用すれば、英語など他言語の記事を自動的にコプト語に翻訳し、コンテンツを充実させられる。これにより、コプト語版の「本編」昇格が加速し、コプト語の情報発信力が飛躍的に高まることが期待される。ただし、記事の品質確保には人手によるピアレビューが不可欠である。(127ページ)
8世紀のコプト語の写本『ルカによる福音書』5章5-9節。(Public Domain)

感想

以下、この論文を読んで感じたことを雑多に列挙します。

1. 言語保存活動への敬意

まず、上記のような言語保存に取り組み、その模様を日本語で発信している著者に敬意を表したいと思います。

日本在住の日本語話者は往々にして、日本語以外の言語、特に「少数言語」とされる言語の存在を忘却しがちです。私自身、ウィキメディア・プロジェクトにおける中央ドゥスン語の保存活動にほんの少しだけ携わる中で、その関心の低さをいつも痛感します。そのような状況下で保存活動に取り組み、しかもそれを日本語の学術論文という形で発信・保存する著者の姿勢は本当に素晴らしいと思います。

また、言語保存のためのメディアとしてのウィキペディアの可能性に言及しているのも、ウィキメディアンとしては大変嬉しく思います。著者が指摘するとおり、ウィキペディアをはじめとするウィキメディア・プロジェクトは、言語保存のためのプラットフォームとして大きな可能性を秘めており、ケント・ウィキ・クラブWikitongueCeltic Knot Conference などの様々な言語保存プロジェクトが展開されています。ただ、こちらも日本、および日本語コミュニティではあまり知られていないのが残念なところですが。

中央ドゥスン語の保存活動に取り組む学生ウィキメディアン団体ケント・ウィキ・クラブ。 (Jjurieee, CC BY-SA 4.0)

2. ウィキメディアンと機械翻訳の微妙な関係

上述のとおり、当該論文は素晴らしいと思うのですが、ウィキメディア・プロジェクトにおける機械翻訳の使用については、もう少し踏み込んで解説した方がいいかなと思いました。

機械翻訳に対する姿勢は、ウィキメディア・プロジェクトごとに、そしてその言語版ごとに、何よりウィキメディアンごとに大きく異なります。結果として、ウィキメディア・プロジェクト上では、機械翻訳の使用をどの程度認めるかについて侃侃諤諤の議論が行われています。以下、いくつか例示します。

もちろん、機械翻訳を活用した記事執筆について著者は「記事の品質確保には人手によるピアレビューが不可欠である」と断っています。ただ、もし私が著者だったら、これに続けて「また、機械翻訳の利用に対する、ウィキメディアン間の議論にも目を配り、批判の可能性が少なくなる方法を探りたい」という一文を入れるかなと感じました。

Attention 機構をもつ seq2seq モデル。ニューラル機械翻訳のモデル。(Daniel Voigt Godoy, CC BY 4.0)

3. ウィキペディア以外のウィキメディア・プロジェクト

また、当該論文のテーマが機械翻訳である以上、仕方のないことではありますが、個人的にはウィキペディア以外のウィキメディア・プロジェクトにも言及してもらえると嬉しいなとも思いました。ウィキメディア・プロジェクトの中でも、特に語彙データウィクショナリーは、言語保存ツールとしてきわめて強力です。より少ない労力で編集できることもあり、ウィキペディアよりも積極的に携わるユーザーも一定数います。

  • Kelab Wiki Kent: First Year Summary – 中央ドゥスン語の保存活動に取り組む学生ウィキメディアン団体ケント・ウィキ・クラブのレポート。ウィクショナリーにも触れられている。
少数言語ユーザーによるウィクショナリー編集イベント WikiTour Perak の様子。(Nelynnnnn, CC0)

まとめ

本稿では、宮川論文におけるウィキペディア関連の記述を紹介したのち、一介のウィキメディアンの視点から好き勝手に感想を述べました。

繰り返しになりますが、とても素晴らしい論文だと思います。感想コーナーでは色々と述べましたが、これはあくまで論文のバランス等を全く考慮しない無責任な立場からのコメントである旨、ご容赦ください。なお、本論文はオープンアクセスで誰でも無料で読めるので、気になった方はぜひ目を通してみてください。

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?