はじめに
Wikipediaの記事は豊富ですが、一部の記事にはまだWikidataの項目が紐付けられていません。この問題を解決するため、Wikipediaに記事があるのにWikidataに項目がない記事を効率的に検索するアプリケーション「Wikidata項目欠落検索『Wikidata Missing』」をリリースしました。このアプリケーションは、「ウィキメディアもくもく会2025年10月東京」で開発したものです。
このアプリの特徴
1. カテゴリー指定による効率的な検索
Wikipediaのカテゴリーを指定することで、そのカテゴリーに属する記事のみを対象として検索できます。サブカテゴリーは対象外とすることで、よりピンポイントな検索をします。
2. リアルタイム処理状況の表示
記事の検索とWikidataの存在確認をリアルタイムで行い、処理の進捗状況をパーセンテージで表示します。ユーザーは現在の処理状況を常に把握できます。
3. バッチ処理による大規模データ対応
50記事ずつ処理することで、大量の記事があるカテゴリーでも安定して動作します。各バッチの処理結果を順次表示することで、途中経過を確認できます。
技術的な実装
処理フロー
- ユーザーがカテゴリー名を入力(例:「日本の漫画家」)
- アプリケーションがWikipedia APIからカテゴリー内の全記事を取得
- 各記事について、Wikidata項目が存在するかをチェック
- Wikidata項目がない記事をリストアップ
- 結果を4カラムのリストで表示
詳細な処理アルゴリズム
- カテゴリーメンバーをWikipedia APIから500件ずつ取得(
cmcontinueを使用して続きを取得) - 通常の記事(namespace 0)のみを対象とする
- 取得した記事を50件ずつ(バッチ)に分けて、Wikidata項目の存在を確認
- 各記事の
pagepropsからwikibase_itemの存在を確認 - 存在しない場合は、欠落リストに追加
使い方
- 「Wikipediaカテゴリー」欄に検索したいカテゴリー名を入力(「Category:」は不要) 例:「日本の漫画家」「北海道の市」「20世紀の建築家」
- 処理が自動的に開始され、進捗状況が表示されます
- 検索完了後、Wikidata項目が欠落している記事のリストが表示されます
- 各記事名をクリックすると、Wikipediaの該当記事が開きます
実際の使用例
例えば「日本の漫画家」カテゴリーで検索すると、記事はあるのにWikidata項目が作成されていない漫画家のリストが表示されます。これにより、Wikidata項目を作成すべき記事を効率的に特定できます。
今後の拡張予定
- 検索結果のCSVエクスポート機能
- 設定可能なバッチサイズ
- 詳細な統計情報の表示
まとめ
このアプリケーションにより、Wikipedia記事とWikidata項目の整合性を効率的に確認できるようになりました。Wikidata編集者の作業を大幅に効率化できるはずです。
アプリケーション
- Wikidata項目欠落検索ツール『Wikidata Missing』
技術仕様
- 開発言語: PHP 7.0以上
- 依存ライブラリ: なし(標準機能のみ使用)
- 対応ブラウザ: モダンブラウザ全般(IE11以上推奨)
- レスポンシブ対応: 480px〜1920px以上
開発者: Ecute
公開日: 2025年10月26日
URL: https://kansuuya.net/wikidata_missing/
Can you help us translate this article?
In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?
Start translation
