やっぱりノイズが好きっ!『シグナル&ノイズ』とベイズ統計
昔、須藤晃さんのエッセイ『みんなノイズを聴きたがる』という書籍を読んだ。尾崎豊や浜田省吾、玉置浩二の音楽プロデューサとして有名な須藤さんなので内容も面白かったが、なによりもこのタイトルが振るっていて記憶に残っている。
このタイトルのノイズとは、いわゆる昨今のテクノに多用されるノイズのことではまったくなく、「裏話」「秘話」といった意味合いだ。人気アーティストのプロデューサが仕事で出会った面白話にはみんな興味がある。それをノイズと揶揄したようなタイトルだといえる。
プロデューサとしては音楽を聴いてもらいたいわけだが、マスコミはときに作品よりアーティストの私生活やスキャンダルばかりを追いかける。ファンや大衆のニーズがそこにあるのも事実だ。私自身も楽屋話や制作秘話、またそういった類のドキュメンタリー作品が大好きだ。本編以上に見たいときもあったりする。
それは人間のサガなのだろうか。今回読んだ、ネイト・シルバー著『シグナル&ノイズ 天才データアナリストの「予測学」』は、さまざまな角度から予測について語った書物だが、やっぱり人間という高度に情報化が進んだ動物はノイズが好きなんだなぁと思わずにはいられなかった。みんなノイズを聴きたがっているのだ。
●シグナルを探そうとしてノイズを集める人類
たしか年末から読み始めて4月くらいにようやく読み終えた。本編だけで500ページくらいある厚い書物だ。帯には「私たちはシグナルを探そうとしてノイズを集めている」と書かれている。著者はデータアナリストであり、ギャンブラーから気象予報官、地震科学者、政治アナリストなど多くの人々を取材している。
ある分野の専門家を統計分析の専門家である著者が取材しているのだから内容は濃い。ただ、さまざまな予測データについてそれぞれ興味深いエピソードをちりばめてあるので、ある意味ノイズの多い本だった(笑)。だがやはりそのノイズが面白いので飽きずに読み終えた。
予測というものは対象によって取組み方も大きく異なる。すぐに結果のでる予測(プロスポーツの優勝チームや選挙、明日の天気など)もあれば、大型地震やパンデミック、テロに地球温暖化とすぐにはわからないものもある。ギャンブルや投資・投機、対戦型ゲームなど一瞬一瞬の判断も予測といえる。
どういう種類の対象にはどんな手法が使われ成功率はどのくらいか。あるいはなぜ失敗するのか。入手できない情報への対応方法は。などなど次々と湧いてくる疑問を専門家に聞いては検証する。あるいはテレビに出ている文化人のバイアスなどについても調べていく。テレビ文化人とはまさにノイズをまき散らす人種であり、それがその人なりに経済合理性を持つ行動でもあるといった皮肉も出てくる。
そんな著者だが、根底にあるのはベイズ統計学への信頼だ。天気予報以外の各種予測はあまり成功していない現実のなかで、いったいなにが邪魔しているのかを明らかにしていく。
ビッグデータがブームになって以降、確率・統計への注目も高まっているわけだが、ベイズ統計というのは好き嫌い(というべきだと思う)が分かれる手法だ。とくに事前確率という“思想”は、数学で統計を専門に(厳密に)やっている人ほど受け入れにくい手法だという。
事前確率は経験値といったようなあいまいな主観を前提にしている。これが有効なのはほとんど数千年に一度起きるか否かといったデータのそろわない未知の現象を予測する場合だ。事前確率というバイアスをあえて排除せず利用しながら、次々と入ってくる情報によって確率計算をやり直しブラッシュアップしていくのがベイズ統計だ(私も専門家じゃないので主観的にそう理解しているだけだが)。
実際に現代社会の様々な分野でベイズ統計は取り入れられ機能している。数学的厳密さがないと考えられた事前確率の存在によって、ベイズ統計は徹底的に糾弾されてきたようだ。そのあたりについては、シャロン・バーチュマグレイン著『異端の統計学 ベイズ』が面白い。文系的に読めるのでお勧め。わたしは『シグナル&ノイズ』を読んだ後、すぐに読み始めた。
●異なる意見を科学でまとめるベイズ統計
ベイズ統計がいちばん機能すると思うのは、異なる事前確率を認めるところだ。これを認めないと議論がはじめられない場合が多い。原発賛成・反対、戦争すべき、いや外交努力で回避すべき、それらはそれぞれ主張する人のバイアスによって出てくる統計結果も異なる。そもそも統計など無関係な思想であることも多そうだ。
そこでそういう異なるものを事前確率として受け入れてとにかく確率計算を始め、次に出てきた事実やデータを取り込んで新たな確率計算をする。いわば異なる意見や信念を科学的手法によってすり合わせていくわけだ。これを続けることで、予測精度を上げていけるというのがベイズ統計だと思う。
ノイズは最初からノイズだとわかればいいが、これがわからないからみんな困っている。異常値、外れ値として処理していいかどうかに迷う。何がわからないのかがわからないのだ。だからといってデータがないから分析できないのでは仕事にならない。
人類はノイズが大好きだが、一方で曖昧模糊とした未来を正しいシグナルで予測したい願望も大きい。そんな矛盾した人類にとって、ノイズの存在をとりあえず認め、それを含んだ事前確率を思い切って使い始めてしまう。人生経験やバイアスをとりあえず認めて、新しい事実やデータを付加していくのは非常に現実的だと思う。
もちろん次々と入手するデータにバイアスがかかっていたりすれば、間違いが広がっていく可能性はある。それはどんな統計手法であっても同じだ。社会科学の分野ではそういうことは多い。現代は医学ですらデータ改ざんされる時代だ。だが改ざんする人間はいつの時代もいる。
それらはまさにノイズ以外の何ものでもない。だがそれすらも事前確率として取り込んで、その後に統計的事実や正しいと思われるデータを次々と取り込みながらノイズを除去していくしかない。エビデンスによる医療などもそのひとつだろう。完璧な予測はできないかもしれないが意見を事実ですり合わせながら前に進むためにベイズ統計を活用できる社会になればいいと思う。
| 固定リンク | 0
コメント