ボット検出の強化とC​​APTCHAの置き換え

Translate this post

ウィキペディアを含め大規模ウェブサイトではすべて、悪意のあるボットに対処しており – それらは今日のインターネットにおいて改善されるどころか、悪化の一途を辿っています。(AI駆動型を含む)悪意のある自動化された活動から自らを守るため、ウィキペディアには、もっと強力なツールが必要です。ウィキメディア財団が4月に書いた記事では、ウィキメディアのコンテンツを学習データとして過度に搾取するスクレイパーから私たちのインフラを守る方法について述べました。今回の記事で解説するのは、本来は人間が行う操作なのに、アカウント作成や編集などを実行する悪意のボットからウィキメディアを保護する新しい方法です。

そのため、ウィキペディアでボット検出の新サービスを試行しています。まずアカウント作成に適用し、将来的には編集など機密性の高い操作の保護に拡張する予定です。

私たちの目標は自動化された荒らし行為に対して防御を強化する基盤を築く点にあり、すでにウィキペディア英語版で7月に対処した単語入れ替えの大量発生という自動改ざんや、3月時点に発生したアカウントの自動乗っ取り案件などを想定しています。さらに適切な備えをしたい点もあり、コンテンツを書き換えたり、あるいはボランティア・コミュニティが整合性確保と合意形成のために用いる手順に影響を及ぼすであろう自動ソックパペットへの対策も考えています。

このボット検出の新サービスは、現役のCAPTCHA(キャプチャ)に代わり、ソフトウェアが生成する基本的な「単語を入力する」視覚パズルであり、2000年代以来、普及してきたものです。端的に申すなら、このシステムはインターネット初期の時代から存在し、現代のAIを活用した攻撃者から身を守る機能を備えていません。それに加えて、現在のCAPTCHAは人間の利用者が使おうにも難しすぎるというフィードバックも数多くいただいています。

私たちがテストを試みるサービスは、ボット検出に特化したサードパーティのサービスで「hCaptcha」(エッチキャプチャ)と呼ばれます。対象はプライバシーを憂慮する顧客層、特にSignalほかインターネットサービスの多くが含まれていて、ウィキペディアとの相性も抜群です。

この試用期間に検証する項目は、hCaptchaがボット活動を抑制または阻止できる程度と、そして人間がウィキペディアをもっと快適に利用できるよう支援する程度に着目します。

あらかじめ、お伝えしておきますが、この試用期間にはウィキペディアとサードパーティ独自のサービスとの直接統合を前提としています。このようにウィキメディアにとって新しい試みとは、財団として決して軽々に実行すべきでないことは申すまでもありません。

しかしながら、この時代、プロジェクトの安全確保サービスを私たち単独で構築するなどは現実的ではありません。組織としてボット検出サービスの運営に特化したところは、私たちよりも専門知識とリソースをはるかに多く備えており、特に年ごとに変わる状況に対応し、ボット検出と回避をたゆまず続ける能力は、計り知れません。

私たちはウィキペディア運営にあたり、これまでプライバシーに最大限に配慮した方法を常に採用しており、現代のウェブで情報共有の軽々しさやオンライン・トラッキングがすっかり当たり前になってしまっても、それらを回避できました。この取り組みを維持する上で、hCaptchaの設定では訪問者のIPアドレスそのもの、具体的な操作、アクセス元のURLを把握できないようにしてあります。ボット検出の一環としてhCaptchaが収集した訪問者のデバイス情報は、10日以内に破棄されます。

これらが揃うと、利用者のプライバシーへの影響を慎重に制限しつつ、ウィキ類のアクセス性もセキュリティも同時に向上できます。その方法に関する技術面の詳細は、以下をご参照ください。

  • この新しいアプローチでは現行のCAPTCHAとは異なり、サービスは基本的に目に見えない形で機能します。ほとんど(およそ99.9%)の訪問者にはどんなパズルを解くのか目にすることはありません。
  • パズルを目にした訪問者は、パズルを解かなければアカウントが作成できません。これらは目に見える形のパズルですが、視覚に問題があるなどアクセス性にニーズがある人にはキーボード入力のみで解けるように文字型のパズルも用意してあります。
  • サービスは「リスク値」を返し、正統でない利用者がアカウントを作成した確信度を示します。この値は非公開ですが保存してあり、WMFとボランティア調査員はそれを使うと、ボットが実施したかもしれない操作の分析と対処に取り組めます。
  • 訪問者のIPアドレスはサービスに送信されず – サービスへのリクエストはすべて、当財団がホストする自前のプロキシを経由して送信され、IPアドレスの生の値を破棄してハッシュ化されたIPアドレスを代用します。
  • コードはサービスから読み込んでサンドボックス化されており、利用者の操作セッションごとのページの文脈を参照も干渉もできず、その結果、サービス側もページ固有のURLを参照することは不可能です。
  • 技術面の詳細は、プロジェクトのページをご参照ください。

このプロジェクトから得たボット検出データは、信頼できるボランティア調査員に提供するツールに組み込み、ソックパペットなどの不正行為対処に活用される見込みです。これは今年の安全とセキュリティに関する大枠の取り組みの一環として、ウィキ類に不正防止のシグナルとツールをさらに組み込もうと目指しており、これらのアイデアの一部は 近々の公開計画に盛り込む予定です。

今後の数週間で取り掛かり期間を数ヵ月に設定し、ボット類はウィキ類でどのように関与しているか分析し、ウィキメディアの利用がhCaptchaによって予想外に困難にならないか確認し、さらにプライバシーとセキュリティに関してさらに講じるべき対策を見出していきます。その分析結果を検証し、試行の結果はコミュニティの皆さんとの意見交換にかけてから、現在のCAPTCHAに代わるhCaptchaの利用拡大を決定します。

コミュニティの皆さんとは、このプロセス全体を通して積極的に連携していきます。これまでフィードバックを直接、提供してくださったボランティアの皆さんに感謝申し上げます。皆さんのフィードバックは、プライバシーモデルと技術的実装の策定に役立っています。作業の進捗状況に応じて最新情報をお伝えしていき – ご意見は当プロジェクトのページに投稿をお願いし、また当チームのニュースレターに受信者登録をされた皆さんには、最新情報をお届けします。

Can you help us translate this article?

In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?