ウィキデータ・クエリビルダーを活用してタンザニアの都市に関するウィキデータ項目を改善する

Translate this post

稲門ウィキペディアン会Eugene Ormandy です。2024年6月、ウィキデータ・クエリビルダーを活用してタンザニアの都市に関するウィキデータ項目を改善したので、その模様を報告します。本稿がウィキデータに興味のある方のお役に立てば幸いです。

稲門ウィキペディアン会のロゴ (Uraniwa, CC0)

前提知識

ウィキデータとは「人間とコンピュータの双方が平等に参照・編集できる無料のオープンな知識データベースサイト」と説明されます。ものすごく簡単に言えば、ウィキメディア財団が運営する、ボランティアが編集可能なメタデータ集です。詳しく知りたい方は、マニュアル [[Wikidata:はじめに]] をご覧ください。

なお、ウィキデータを対象とした検索サービスも提供されています。その名も「ウィキデータ・クエリサービス」。MediaWiki 上のマニュアルにおいて同サービスは「ウィキデータのデータセットにクエリ(問い合わせ)することを可能にするSPARQLエンドポイントを提供するために設計されたソフトウェアパッケージであり、公開サービス」と紹介されています(MediaWiki [[ウィキデータ クエリ サービス/利用者マニュアル]] 2024年6月15日 (土) 14:46 (UTC) 版)。

また、SPARQLに詳しくない人でも簡単にウィキデータ・クエリサービスを活用するための便利なサービス「ウィキデータ・クエリビルダー」も提供されています。

ウィキデータのロゴ (Kambai Akau, CC BY-SA 4.0)

経緯

2024年6月、『タンザニアを知るための60章 第2版』という書籍を読んでいる最中にふと「タンザニアに関するウィキデータ項目における日本語ラベルってどの程度充実しているのかしら」と思ったので、ウィキデータ・クエリビルダーで調べることにしました。

タンザニアの位置 (TUBS, CC BY-SA 3.0)

作業

まずはウィキデータ・クエリビルダーで、「位置する行政区画 (P131)」が「タンザニア (Q924)」に一致するものを検索。検索結果の ItemLabel 欄には、QID もしくは日本語ラベルが表示されていました。具体的には以下のとおりです。

ウィキデータ・クエリビルダーでの検索結果。2024年6月19日アクセス (Eugene Ormandy, CC BY-SA 4.0)。

ItemLabel 欄に QID が記載されている項目は、日本語ラベルが記入されていないものです。ということで、それらのラベルを改善することにしました。具体的には、各項目にアクセスした上で、その日本語訳が存在しているかをインターネット等で検索し、発見したらラベルに記入していくことにしました。

ウィキデータの仕組み。ラベルは一番上に記載された「見出し語」のようなもの。(Charlie Kritschmar (WMDE), CC0)

まずは検索結果の一番上に表示された「Q985415」を確認。「bububu」という都市についての項目でした。おそらく「ブブブ」という日本語訳が存在するだろうなと思いGoogle検索を行なったところ、Goo辞書(デジタル大辞泉)の「ブブブ」という項目がヒット。

そこで、ウィキデータ項目の日本語ラベルに「ブブブ」と記入しました。また、ラベルに出典を記載する場所はないので、ノートページに日本語表記はGoo辞書を参照した旨を明記。さらに、識別子用のプロパティ「デジタル大辞泉ID (goo辞書) (P11651)」を発見したので、設定した上で値を入力しました。

ブブブの海岸 (Thobani Gumede, CC BY-SA 4.0)

続いて、上から3番目(日本語ラベルのないものの中では上から2番目)の「Q2500021」を確認。「Urambo District」という区画についての項目でした。こちらは「タンザニア ウランボ」で Google検索を行なったところ、「ウランボ県」という記載がある JETRO(独立行政法人日本貿易振興機構)のレポートを見つけました。ということで、こちらも「ブブブ」のウィキデータ項目同様、日本語ラベルを記入した上で出典をノートページに明記。なお、前述の Goo辞書(デジタル大辞泉)でも「ウランボ」「ウランボ県」という項目がないか確認しましたが、存在しませんでした。

タボーラ州ウランボ県の地図 (NordNordWest, CC BY-SA 3.0 de)

最後に「Q3155110」も確認。「Isaka」という区画についての項目でした。こちらも「タンザニア イサカ」で Google検索を行なったところ、在タンザニア日本大使館のウェブページで「イサカ」に言及した箇所があったので、上記項目と同様、日本語ラベルを改善のうえ出典を明記しました。

ちなみに、ウィキデータ項目の識別子欄を充実させるため、世界各国の典拠データを集約するバーチャル国際典拠ファイル (VIAF) でも「Isaka」と検索したのですが、この時 VIAF 上のミスを発見しました。

具体的には、上記検索でヒットしたパーマリンク: http://viaf.org/viaf/255512734 のエントリで紹介されていた2つの典拠データが、異なるものを指し示していたのです(2024年6月21日時点)。具体的には、マダガスカルの「イサカ」を指し示すウィキデータ項目 (Q55979840) と、アメリカ合衆国ニューヨーク州の「イサカ (Ithaca)」を指し示す国立国会図書館典拠データ検索・提供サービス (ID:00628216) がまとめられていました。ということで、VIAF のフィードバック用メールアドレスに連絡しておきました。

タンザニアのイサカにあるドライポートの看板 (Macabe5387, CC BY-SA 4.0)

まとめ

ウィキデータ・クエリビルダーを活用して、タンザニアの都市に関するウィキデータ項目の日本語ラベルを改善した経緯についてまとめました。

余談ですが、今回の作業を行うきっかけとなった書籍『タンザニアを知るための60章 第2版』には索引がなかったので、日本語ラベルがないウィキデータ項目の日本語表記を調べる際にうまく活用できませんでした。「『bububu』の日本語表記って多分『ブブブ』なんだろうけど、この本のどの部分に記載がありそうか予想できないなあ」という感じです。読んでいる本(索引がないもの)をウィキデータに活用する場合、テクストで見知らぬ単語に出会った際にすぐウィキデータの項目を確認する必要があるのだなあと再認識しました。

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?