ウィキペディアンの読書記録 #17 「ジャパンサーチのLOD:デジタルアーカイブが「つながる」ために」

Translate this post

稲門ウィキペディアン会の Eugene Ormandy です。本稿では、「[24] ジャパンサーチのLOD:デジタルアーカイブが「つながる」ために」という論考を紹介します。リンクトオープンデータ (LOD) やウィキデータに関心のある方のお役に立てば幸いです。

Uraniwa, CC0

書誌情報

町屋 大地、伊藤 実、髙橋 美知子「[24] ジャパンサーチのLOD:デジタルアーカイブが「つながる」ために」『デジタルアーカイブ学会誌』6 巻 s2 号、2022年、s82-s85頁。https://doi.org/10.24506/jsda.6.s2_s82

内容

ジャパンサーチについて

著者はまず、ジャパンサーチの仕組みを紹介します。ジャパンサーチとは、日本の幅広い分野のデジタルアーカイブと連携して、多様なコンテンツのメタデータをまとめて検索・閲覧・活用できるプラットフォームで、国立国会図書館がシステムの開発・運用を行なっています。以下、データベース提供機関とジャパンサーチとの提携に関する説明を引用します。

ジャパンサーチはデータベース提供機関の作業・調整の負荷を減らし、迅速な連携を実現するため、連携開始にあたっては提供機関が個々のデータベースのデータ項目とデータをそのまま登録し、その中から限定的に定められた共通項目を指定することで網羅的な検索・表示を実現している。一方で、連携開始後に順次、ジャパンサーチ側で個々のデータベースに応じた詳細なマッピングを実施し、付加価値をもたらす二次利用の促進を目指してリンクトオープンデータ (LOD) へ変換して提供している。

上記論考、s82頁。
ジャパンサーチを運営する国立国会図書館 (Nesnad, CC BY 4.0)

ジャパンサーチ利活用スキーマについて

続いて著者は、ジャパンサーチが提供するLODの形式「ジャパンサーチ利活用スキーマ」におけるURIは、ウィキデータ等との同定が行われていると紹介します。

ジャパンサーチで提供しているLODは、利活用に適した共通の形式に変換しており、この形式を「ジャパンサーチ利活用スキーマ」と呼んでいる。

ジャパンサーチ利活用スキーマの特徴の一つは、メタデータ中の時間・場所・人・組織の情報をURIとして正規化している点である。

(略)

正規化したURIはジャパンサーチ外のLODハブ、すなわちWeb NDL Authorities、DBpedia、Wikidata、バーチャル国際典拠ファイル (VIAF) といったウェブ上で他のデータからリンクされているURIと同定を行い、関連付けている。

(略)

DBpediaはウィキペディアの記事をLOD化したものであるが、Europeanaにおいても一部の人物情報はDBpediaのURIを用いて正規化されているため、ジャパンサーチとEuropeanaのメタデータを横断的に検索することが可能となる。

また、Wikidataはウィキメディア財団が提供するユーザーの共同作業によるデータベースである。Wikidataは他の識別子との関係性が集約されたハブとしての機能を有している。ジャパンサーチのRDFストアで保持していない識別子についても保持していることから、Wikidataとの統合クエリによって幅広い外部識別子を用いた検索が可能となることも利点である。また、Wikidataは多言語対応がなされていることから、多様な言語を母語とするユーザーにとってもジャパンサーチ上のメタデータを検索しやすくなることが期待できる。

上記論考、s82頁。
ウィキデータのロゴ (Kambai Akau, CC BY-SA 4.0)

「ウィキデータへの登録」について

さらに著者は、ジャパンサーチで正規化したURIのウィキデータへの登録についても紹介します。

2022年、ジャパンサーチで正規化したURIのWikidataへの登録を開始した。

Wikidataは識別子のハブとして機能すると同時に、分野を問わない大規模な知識データベースであることから、Wikidataからジャパンサーチへの「リンク」を設けることによってデジタルアーカイブの更なる活用が期待される。

例えば、Wikidata上の出生地や性別の情報をもとに次のような統合クエリをジャパンサーチのSPARQLエンドポイントに送信することで、青森県出身の女性が制作した作品を検索することが可能である。

(引用者註:クエリは省略)

上記論考、s84頁。

感想

ジャパンサーチおよび国立国会図書館が、積極的にウィキメディア・プロジェクトに関わってくれるのは喜ばしいことだと感じました。また、GLAMの世界でウィキデータが識別子のハブとして注目されていることを改めて実感しました。

ただ、最後に引用した「ウィキデータへの登録」が何を指すのかについては、もう少し具体的に書いてほしいなと感じました。

今回取り上げた論考における「ウィキデータへの登録」は、ジャパンサーチ上のページ「ジャパンサーチのSPARQLエンドポイント」における記述「JPS正規化名URIは、ほかにもWikidataVIAFDBpedia日本語版などとowl:sameAsで関連付けられているので、これらのIDを利用したクエリを組み立てることも可能です」のことを指しているのかなと私は理解しましたが、こちらで正しいのか今一つ確信がもてません。なお、その一方で「Wikidataからジャパンサーチへの「リンク」を設けることによってデジタルアーカイブの更なる活用が期待される」という文言に鑑みるに、「ウィキデータへの登録」は後述の「ウィキデータの各アイテムにプロパティ『ジャパンサーチ名称識別子 (P6698)』とその値を追加する作業」を指しているのかな?とも思いました。

ちなみに、OWL とは、リソースや概念の関係を厳密に定義し表現するためのウェブ・オントロジー言語で、上述のowl:sameAs は「同一個体。2つの個体が同一であること」を示します。OWL については谷口祥一さんの書籍『知識資源のメタデータへのリンクトデータ・アプローチ』の61-66ページにわかりやすくまとまっているので、興味がある方はご覧ください。

  • 谷口祥一 著. 知識資源のメタデータへのリンクトデータ・アプローチ, 勁草書房, 2023.6. 978-4-326-00059-3. https://ndlsearch.ndl.go.jp/books/R100000002-I032880904

なお、「ウィキデータの各アイテムにプロパティ『ジャパンサーチ名称識別子 (P6698)』とその値を追加する作業を、運営側がどの程度行なっているか」も個人的には気になりました。GLAM自身がウィキデータに典拠IDを追加してくれるのは、ウィキメディアンとしては大歓迎なので是非積極的に着手してほしいですね。ちなみに、ウィキデータのページ [[Wikidata:データ提供]] や Wikimedia Outreach のページ [[GLAM/Resources/Data and media partnerships workflow]] には、GLAMによるデータ提供に関する情報がまとまっているので、興味がある方はご覧ください。

さらに余談ですが、GLAM等が作成する典拠データがウィキデータにどの程度紐づけられているか確認できるツール “Mix’n’match” における “Japan Search” のページを確認したところ、以下のような状況でした (https://mix-n-match.toolforge.org/#/catalog/3256) 。アクセス日は2024年7月2日です。

Mix’n’match における Japan Search のページ。ジャパンサーチの典拠データのうち、ウィキデータに紐付けられていないデータ(ウィキデータには相応しくないと判断済のものを除く)が12%存在することが示されている。2024年7月2日アクセス。(Eugene Ormandy, CC0)
Mix’n’match における Japan Search のページ。2020年1月と2023年1月に紐付けが集中的に行われていることが示されている。2024年7月2日アクセス。(Eugene Ormandy, CC0)

まとめ

「[24] ジャパンサーチのLOD:デジタルアーカイブが「つながる」ために」という論考におけるウィキデータ関連の記述を紹介したのち、ジャパンサーチとウィキデータとの提携についてもう少し具体的に書いてほしいと指摘した上で、余談として『ジャパンサーチ名称識別子 (P6698)』の充実度合いを示しました。本稿がLODやウィキデータに関心のある方のお役に立てば幸いです。

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?