Web NDL Authorities の SPARQL エンドポイントを活用してトルコ文学に関するウィキデータ項目を改善してみた

Translate this post

稲門ウィキペディアン会Eugene Ormandy です。2024年6月、国立国会図書館が運営する NDL Authorities の SPARQL エンドポイントを活用して、トルコ文学に関するウィキデータ項目を簡単に改善したので、その模様を簡単に報告します。

前提知識

Web NDL Authorities(国立国会図書館典拠データ検索・提供サービス)は、日本の国立国会図書館が維持管理する典拠データを一元的に検索・提供するサービスです。詳しく知りたい方は同館のウェブページ「Web NDL Authoritiesについて」をご覧ください (https://id.ndl.go.jp/information/about/) 。

また、SPARQL エンドポイントとは、データベース問い合わせ言語 SPARQL を用いた検索サービスのことです。ざっくりと「高度な検索ができるサービス」くらいに捉えていただければ結構です。詳しく知りたい方は国立国会図書館のウェブページ「SPARQLについて」をご覧ください (https://id.ndl.go.jp/information/sparql/) 。

国立国会図書館 (Nesnad, CC BY 4.0)

ウィキデータとは「人間とコンピュータの双方が平等に参照・編集できる無料のオープンな知識データベースサイト」と説明されます(https://www.wikidata.org/w/index.php?title=Wikidata:Main_Page&uselang=ja)。ものすごく簡単に言えば、メタデータ集です。なお、ウィキデータは、外部の図書館等が作成した識別子のハブとしても機能します。例えばウィキデータ項目「早稲田大学 (Q274486)」には、フランス国立図書館やアメリカ議会図書館が作成した典拠データにおける「早稲田大学」の ID が列挙されています。

ウィキデータについて詳しく知りたい方は「Wikidata:はじめに」をご覧ください (https://www.wikidata.org/wiki/Wikidata:Introduction/ja) 。また、大向一輝さんの論考「識別子としてのWikidata」もわかりやすいのでオススメです (https://doi.org/10.18919/jkg.70.11_559) 。

ウィキデータのロゴ (Planemad, Public Domain)

経緯

私は「ウィキメディア日本・トルコ友好会」というプロジェクトを主催しており、両国のウィキメディアンの交流促進や、両国に関するウィキメディア・プロジェクトの充実に取り組んでいます。今までは百科事典ウィキペディアを活用した活動を中心に展開していたのですが、そろそろウィキデータにまつわる活動にも取り組もうと思い立ち、国立国会図書館の典拠データで、トルコに関連するものを活用してウィキデータを整備することにしました。

ウィキメディア日本・トルコ友好会のロゴ。(Kurmanbek, CC BY-SA 4.0)

ウィキデータを改善する

まずは先述の国立国会図書館ウェブページ「SPARQLについて」にアクセス (https://id.ndl.go.jp/information/sparql/) 。読み進めたところ「5. 例4:ある代表分類に属する件名標目を調べる」というセクションに、国立国会図書館分類表(NDLC)の分類記号「DM225」に属する件名標目の典拠URI、ラベルを表示するクエリ例が示されていたので、これを活用することにしました。

PREFIX skos: http://www.w3.org/2004/02/skos/core#
PREFIX rdfs: http://www.w3.org/2000/01/rdf-schema#
SELECT * WHERE {
?uri1 skos:relatedMatch http://id.ndl.go.jp/class/ndlc/DM225;
rdfs:label ?label .
}

上記ウェブページより。

その後、トルコに関連する分類記号を確認するため、同じく国立国会図書館のウェブページ「国立国会図書館分類表(National Diet Library Classification:NDLC)」にアクセス (https://www.ndl.go.jp/jp/data/catstandards/classification_subject/ndlc.html) 。すると「政治・法律・行政 Politics. Law. Administration」や「経済・産業 Economics. Industries」といった大綱ごとに pdf が作成されていたので、自分が興味のある「芸術・言語・文学 The Arts. Language. Literature」を開きました (https://www.ndl.go.jp/jp/data/ndlc_k.pdf) 。

pdf のページ内検索で「トルコ」というキーワード検索を行なったところ4件がヒット。その中で気になった「KJ126 トルコ文学」をクエリに活用することにしました。ということで、SPARQL エンドポイントのウェブページにアクセスし、下記クエリを打ち込み実行しました (https://id.ndl.go.jp/auth/ndla/?query=)。

PREFIX skos: http://www.w3.org/2004/02/skos/core#
PREFIX rdfs: http://www.w3.org/2000/01/rdf-schema#
SELECT * WHERE {
?uri1 skos:relatedMatch http://id.ndl.go.jp/class/ndlc/KJ126;
rdfs:label ?label .
}

先述のクエリの4行目の末尾を「DM225」から「KJ126」に変更している。

すると、下記3件がヒットしました。

ということで、上記の典拠データをウィキデータに反映する作業に移ります。まずはウィキデータで「トルコ文学」と検索。すると「トルコ文学 (Q1328366)」がヒットしたので、識別子欄を確認。しっかりと「国立国会図書館典拠ID」のプロパティとその値が入力されていたので、私が作業をする必要はありません。よかったよかった。

続いては「デデ・コルクトの書」です。ウィキデータで「デデ・コルクトの書」と検索……したいところですが、ウィキデータの項目に日本語のラベルが設定されていない場合、それだとうまくヒットしません。そこで、国立国会図書館の典拠データ「デデ・コルクトの書」に記載された別名「Kitabi Dede Korkut」をウィキデータに入力し検索。すると「デデ・コルクトの書 (Q903320)」がヒット。心配しなくても、日本語のラベルはすでに設定されていましたね。ただし、識別子欄に「国立国会図書館典拠ID」のプロパティはなかったので、設定のうえ ID を入力しました。また、国立国会図書館の典拠データ「デデ・コルクトの書」に記載されていた VIAF へのリンクを参照し、ウィキデータに「VIAF識別子」のプロパティおよび ID を追加しました。なお、余談ですが、上述の国立国会図書館典拠データ「トルコ文学」には、VIAF へのリンクはありませんでした。

デデ・コルクトの書 (Public Domain)

最後は「クタドグ・ビリク」です。こちらも国立国会図書館の典拠データ「クタドグ・ビリク」に記載された別名「Qutadghu Bilig」をウィキデータに入力し検索。すると「クタドゥグ・ビリグ (Q1753178)」がヒットしました。今回は「日本語のラベルは設定されていたが、国立国会図書館の典拠データとは違う名前だった」というパターンですね。ウィキデータのラベルは「別名」を追加する欄があるので、そこに「クタドグ・ビリク」を追加しておきました。また、上記と同様「国立国会図書館典拠ID」と「VIAF識別子」を追加しておきました。

クタドグ・ビリク (Public Domain)

まとめ

国立国会図書館が運営する NDL Authorities の SPARQL エンドポイントを活用して、トルコ文学に関するウィキデータ項目を簡単に改善した経緯についてまとめてみました。上手くいったので、今後は「ウィキメディア日本・トルコ友好会」のメンバーを巻き込んだ編集イベントへ発展させられればと思います。また、このような活動に興味を持った GLAM と提携できれば望外の喜びです。

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?