稲門ウィキペディアン会の Eugene Ormandy です。本稿では、小林雅一『イーロン・マスクを超える男サム・アルトマン なぜ、わずか7年で奇跡の対話型AIを開発できたのか』に登場する、ウィキペディア関連の記述を紹介します。

書誌情報
- 小林雅一 著. イーロン・マスクを超える男サム・アルトマン : なぜ、わずか7年で奇跡の対話型AIを開発できたのか, 朝日新聞出版, 2024.7. 978-4-02-251993-1. https://ndlsearch.ndl.go.jp/books/R100000002-I033578725

内容
本書には、ウィキペディアに言及した記述が6つ登場していました。以下引用します。
- 言語モデルとは具体的に言うと、多層ニューラルネットに各種SNSやウィキペディア、あるいは電子書籍など大量のテキスト・データを読み込ませ、それらテキストの統計的パターンを学習させることで、ある単語の後に続く単語を確率的に予測させる技術だ。(69ページ)
- スツケヴァーらが(引用者註:2012年に)開発した言語モデルはウィキペディアから収集した大量の記事(分量にして約5億文字)を多層ニューラルネットに入力し、これを学習用データとして用いて数ヶ月間にわたってトレーニング(機械学習)させたシステムだ。(70ページ)
- OpenAI の研究チームは2020年に発表した論文の中で、GPT-3 の機械学習に使われたデータセットの大まかな内訳を公開している。それによれば2008年以来、米国の非営利団体「コモンクロール (Common Crawl)」がインターネット全体から収集してきたテキスト・データが約4100億トークン、ウィキペディアのデータが約30億トークン、電子化された書籍データが約670億トークン、そして(オンライン・プラットフォームの)レディット関連のデータが190億トークンの計4990億トークンである。(109-110ページ)
- 同年(引用者註:2023年)6月には、カリフォルニア州にあるクラークソン法律事務所などの呼びかけに応じて一般消費者が ChatGPT の開発元 OpenAI とその筆頭株主であるマイクロソフトを提訴した。訴えによれば、ChatGPT のトレーニングには、主に「コモンクロール」と呼ばれる非営利団体(プロジェクト)が集めたSNSやブログ、ウィキペディアをはじめインターネット上の膨大なデータが使われているという。ChatGPT つまり OpenAI はそれらのデータをSNSなどのユーザーに無断で利用していることから、その著作権やプライバシーを侵害している、というのが提訴の理由だ。(175ページ)
- まだ非営利団体であった頃の OpenAI が細々と LLM の研究開発をしていた時代なら、こうした学習データを手に入れることに全く支障はなかった。当時、彼らが使っていたのは「ウィキペディア」や(オンライン・フォーラムの)「レディット」、そして非営利の研究プロジェクト「コモンクロール」が2008年からウェブ上で大量に収集してきたテキスト・データなどだ。しかし2019年に OpenAI が事実上の営利企業に転身して、本格的にLLMの研究開発に取り込むようになると、そうした公共データだけでは足りなくなった。(210-211ページ)
- OpenAI が GPT-4 の開発を始める頃には、(1つ前の GPT-3 の開発などのために)ウィキペディアや電子書籍などの通常のテキスト・データはほぼ使い尽くしてしまっており、何か新しい方法で機械学習用のデータを用意する必要に迫られた。そこで同社は「ウィスパー」と呼ばれる音声認識システムを開発した。そしてユーチューブから集めてきた大量の動画(の音声)を、このウィスパーを使ってテキスト・データに変換したのである。(211ページ)
感想
「LLMの発展のためにも自分はウィキペディアを拡充しよう」と改めて感じました。なお、本書について少し欲を言うならば、どの時点のダンプデータが学習に用いられたのか、そして一定期間が経過してウィキペディアの内容もある程度変化した際に、再度ダンプデータを取得していたのかなどが明記されているといいなと一介のウィキメディアンとしては思いました。ただ、学習データ全体の規模と比較すればその差分など誤差に近いでしょうし、一般書に上記のような細かすぎる注文をするのはあまり有意義ではないだろうとも思います。
まとめ
小林雅一『イーロン・マスクを超える男サム・アルトマン なぜ、わずか7年で奇跡の対話型AIを開発できたのか』に登場する、ウィキペディア関連の記述を紹介し、簡単にコメントをしました。本稿がどなたかのお役に立てば幸いです。

Can you help us translate this article?
In order for this article to reach as many people as possible we would like your help. Can you translate this article to get the message out?
Start translation