ウィキペディアンの読書記録 #14 東修作「ウィキメディア・コモンズを介したオープンアクセス画像の二次利用」

Translate this post

稲門ウィキペディアン会の Eugene Ormandy です。本稿では、東修作さんの論稿「ウィキメディア・コモンズを介したオープンアクセス画像の二次利用」を紹介します。

書誌情報

  • 東修作「[44] ウィキメディア・コモンズを介したオープンアクセス画像の二次利用:オープンデータとして公開された画像の活用事例の紹介」『デジタルアーカイブ学会誌』第5巻第s1号、2021年、s75-s77ページ。https://doi.org/10.24506/jsda.5.s1_s75

概要

第1章「はじめに」

第1章「はじめに」にて著者はウィキメディア・コモンズを取り上げ「デジタルアーカイブの利活用と相性の良い枠組みであるが、日本ではあまり活用されているとはいいがたい。ここではその利活用の事例を紹介する」と述べます。

第2章「画像のインポート」

その後第2章「画像のインポート」にて著者は、ウィキメディア・コモンズへ画像をインポートする意義を述べたのち、画像を大量にインポートする際に便利なツール Pattypan を紹介します。以下、少し長くなりますが引用します。

ジャパンサーチをはじめとして国内外のコンテンツを広く提携して一括検索できるようにしたサービスは複数提供されているが、オリジナル画像の提供は基本的に提供元にゆだねられているため、なかなか一括したハンドリングが難しい面がある。

他方、コモンズにオリジナルコンテンツの電子的な複製を集めた場合、一括した形式で全てオープンデータとして提供されるため、集合的な操作がしやすく利用条件もわかりやすいというメリットがある。

(略)

メタデータをエクセル上で編集しながら一括してアップロードできるツールが Pattypan であり、GLAM機関が公開した大量画像のインポートに適している。2021年2月現在で約78万件のメディアがこのツールを使ってアップロードされている。

s75ページより。

第2章については、読んでいて気になった点が2つあります。1つ目は「2021年2月現在で約78万件のメディアがこのツールを使ってアップロードされている」という記述の出典です。当該論考の参考文献欄には、Pattypan に関する出典として下記の記述がありましたが、著者が参照したと思われる版(2020年12月17日 (木) 08:02 (UTC) 版‎)を確認しても「約78万件」に関する記述はありませんでした。

ちなみに、著者が参照したのは、ウィキメディア・コモンズ上のカテゴリ「Category:Uploaded with pattypan」だと思われます。ウィキペディアンの私としては、検証可能性を担保するために、これも記載しておいた方がよいのではと感じてしまいました。もちろん、一文ごとに出典を明示するウィキペディアと紙幅の限られた論文で作法が違うのは仕方ないとは思うのですが……。

さて、気になった点の2つ目は、「コモンズにオリジナルコンテンツの電子的な複製を集めた場合、一括した形式で全てオープンデータとして提供されるため、集合的な操作がしやすく利用条件もわかりやすい」という記述です。個人的には「ここまで言い切ってしまっていいのかな?」と感じました。たしかに、特定の機関がアップロードした資料群のみを対象とする場合は「集合的な操作」がしやすいと予想されますが、別の機関がコモンズにアップロードした画像との比較などを行うときは、使用する引数の違い等により「集合的な操作」がしにくくなる事態も考えられます。

ためしに、ドイツ連邦公文書館が Bot を使ってコモンズにアップロードした指揮者の画像と、米国デジタル公共図書館 (DPLA) が同じく Bot を使ってコモンズにアップロードした指揮者の画像を比較してみましょう。

前者の「概要」節のソースを確認すると、「BArch-image」というテンプレートが使用されており、引数の一つに「photographer」という引数が設定されていることがわかります。一方、後者のソースを確認すると(細々とした説明は省きますが)引数「photographer」は設定されておらず、代わりに「creator」が設定されています。それぞれの GLAM がウィキメディア・コモンズにアップロードした画像を横断的に比較・分析する際、このような事態がネックとなりうることは、自分が著者だったら言及しておくかなと感じました。また、ソースの書き方に限らず、次章で紹介されるメタデータ付与においても同様のことは言えると思われます。

第3章「画像へのメタデータ付与」

第3章「画像へのメタデータ付与」にて著者は「コモンズではメディアが場所、年代、対象物などのカテゴリで階層的に分類されている。これを手がかりに、カテゴリ単位で構造化されたメタデータを付与することで、SPARQL言語などで多様な検索が可能となる」と指摘します。そして、カテゴリ単位に構造化データを一括して登録できるツール「AC/DC」を紹介。ツール名を見たときは爆笑してしまいました(補足:世界的に有名なバンドと同名)。

第4章「二次利用方法」

第4章「二次利用方法」にて著者は、ウィキメディア・コモンズの二次利用方法として、「ウィキペディア」と「調査・研究」の2つをあげます。まずはウィキペディアに関する指摘を引用しましょう。

コモンズと最も親和性が高く、アクセス数が多いのがウィキペディアである。何らかの事象をネットで調べる際にはたいてい上位に表示されるため、ウィキペディアの記事内に組み込まれた画像はアクセス数が伸びやすい。それぞれの記事に適した画像であれば、ウィキペディア側にとっても記事の充実につながるというメリットがある。

s76ページより。

続いて著者は、構造化されたメタデータを自由に再利用できる環境が整備されることで、各自がゼロから調査・研究を行わなくてもよくなる可能性があると述べます。浮世絵の例を紹介した個所を引用しましょう。

浮世絵を例にとると、歌舞伎役者は名跡を継承するため個人を特定するにはその何代目かを知る必要があるが、浮世絵自体に何代目か記載されているケースは少ない。そのため研究者や好事家などが作品の歌舞伎演目、製作年代、作者等を考証しつつ何代目かを特定することになるが、そうした作品に直接的に明記されていない情報がまとまった形でオープンに共有されるケースは稀であり、同じような調査を何度も一からやり直すことになる。

これに対して、コモンズにある構造化データを利用すれば、例えば「七代目 市川團十郎」が描かれている浮世絵を直ちに一覧表示でき、その結果を起点として調査・研究を深めることができる。

s76ページより。

第5章「おわりに」

著者は最後に、懸念点として「テータの品質」「網羅性」「構造化データスキーマが試行錯誤の段階であること」の3つをあげ、中でも網羅性については以下のように述べます。

コモンズには海外のオープンアクセスを推進している GLAM 機関のメディアファイルはかなりインポートされているが、国内の機関については、公開するところが増えているにも関わらずコモンズへのインポートはまだあまり行われていない。浮世絵でいえば、揃物がどこまで揃っているかはコレクターが大いに関心のあるところだが、今後コモンズへのインポート作品が増えるにつれてそこに欠けているミッシングリンクを国内の機関による公開作品が補う可能性がある。

s77ページより。

補足:論文公開後の日本国内の動向

最後に、私 Eugene Ormandy から、東論文が公開された2021年から本稿を執筆している2024年6月までの動向を簡単に取り上げます。上述のとおり著者は「(日本)国内の機関については、公開するところが増えているにも関わらずコモンズへのインポートはまだあまり行われていない」と述べていますが、2021年以降、いくらか動きがありました。具体的には、ボランティアの市民がGLAMの資料をコモンズへインポートするイベント等が散見されるようになったのです。以下、自分が携わったイベントばかりで恐縮ですが、簡単に紹介します。

まず挙げるべきは、東京国立博物館における編集イベントでしょう。同館は有志のウィキメディアンと協力し、2022年、2023年と連続してウィキメディア編集イベントを開催しています。これらのイベントでは、参加者たちが東京国立博物館の所蔵資料についてのウィキペディア記事を編集したほか、「ColBase: 国立文化財機構所蔵品統合検索システム」に「クリエイティブ・コモンズ・ライセンスの表示4.0国際」ライセンスでアップロードされた同館の画像をウィキメディア・コモンズにインポートしました。イベントの様子は、日本語版ウィキペディアに下記のとおりまとめられています。

  • 日本語版ウィキペディア [[プロジェクト:アウトリーチ/GLAM/ウィキマニア2022東京]] 2023年7月21日 (金) 05:00‎ (UTC) 版。https://w.wiki/AK4m
  • 日本語版ウィキペディア [[プロジェクト:アウトリーチ/GLAM/ウィキマニア2023東京]] 2024年1月17日 (水) 05:52‎ (UTC) 版。https://w.wiki/AK4t

また、東京都の三康図書館で2023年に開催された「WikipediaSanko」というイベントでは、著作権の切れた資料を参加者たちが撮影し、ウィキメディア・コモンズにアップロードしました。なお、それらの資料はコモンズ上で「Category:Sanko Library」というカテゴリを付与されています。

さらに、ウィキメディアンたちが、デジタルアーカイブとウィキメディア・コモンズの提携に関する勉強会を開くようにもなりました。

もちろん、市民によるインポート活動は非常に有意義なのですが、GLAMが主導して行うときのようなデータの統一性等は期待できないことに留意する必要があるでしょう。デジタルアーカイブの資料を全てインポートするだけの余力はありませんし、ボランティアが操作を行う以上、誤入力の可能性は排除できません。

上記イベントの主催者としては、GLAMが積極的にインポート作業に関わってくださることを望むばかりです。また、ウィキメディア・コモンズが受け入れていないライセンスで資料を公開しているGLAMにおいても、ライセンスの変更およびコモンズへのインポートを検討していただければと思います。参考までに、そのようなライセンス変更を行なった AntWeb の事例を紹介しておきます。

まとめ

東修作さんの論稿「ウィキメディア・コモンズを介したオープンアクセス画像の二次利用」の内容を紹介しつつ、気になった点についてコメントを行いました。また、補足として、論稿公開後の日本国内のGLAMとウィキメディア・コモンズとの提携にまつわる動向を紹介しました。本稿が何かしらのお役に立てば幸いです。また、GLAM関係者が自館の資料をウィキメディア・コモンズにインポートする契機となれば望外の喜びです。

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?