株式会社ジャパン・マーケティング・エージェンシー
企画部 大阪事務所 マネージャー 上田 牧人
企画部 大阪事務所 マネージャー 上田 牧人
ベイズの普及
先回までに、ベイズ統計は得られる情報によって事前確率を事後確率へと更新する実践的な方法であり、それは『事後確率∝尤度(ゆうど)×事前確率』(∝は比例を示す記号)で表現されることを紹介しました。
ここ10年の間にベイズ統計は大きく発展し広く利用されるようになりました。
しかし、「これはベイズで分析した結果だ」と表立って喧伝されることは少なく、どちらかといえばさまざまな問題にアプローチする際の下支え技術として、内部的に使われることが多いようです。
今回はそうした事例のいくつかをあらためて眺めておくことにします。
迷惑メール対策
ベイズ技術が使われている代表的な事例はメールのスパムフィルタでしょう。
スパムメールには特定の単語が含まれている場合が多いので、単純にそうした単語が出てくればNGだと決め付けても良いのですが、それでは正常なメールをはじいてしまう場合も出てきます。
ポール・グラハム氏が提案したベイジアンスパムフィルタは、あらかじめ機械学習して単語に点数をつけておき、対象となるメールに対してスパムである事後確率とスパムでない事後確率を計算して、確率の高い方へ瞬時に振り分けようというものです。
次々と抜け道を考えていくスパム業者に対抗して、再学習しながら精度を高める努力が継続されています。
今では、スパム対策は一斉配信チェックなど別の方法も併用しているようですが、ベイズの価値が損なわれることはないでしょう。ベイジアンフィルタは、グーグルやMSNの検索エンジンに使われていることでも有名ですね。
音声認識と隠れマルコフ
ベイズ理論とマルコフモデルが融合した事例として、音声認識やゲノム解析、言語の形態素解析などで利用される隠れマルコフモデルの世界があります。音声認識は、人の声を音響としてとらえ音素のレベルにまで分解します。得られた信号としての音素から、意味のある言葉や文章を再現しようということです。
隠れマルコフモデルは、目に見える信号系列の裏側にマルコフ系列が隠れているとするもので、ベイズ流の条件付確率を順次たどりながら、最も有望な(確率の高い)系列を探し出して特定することになります。
例えて言えばこんな感じでしょうか。
酔って帰ったとたん落し物に気がついたとします。どういう道順で帰ったかうろ覚えです。さあどうしましょう。
あなたは、断片的な記憶(信号)を手がかりに、ふだんの帰路(確率的な複数の系列)と頭のなかでつき合わせ、これと思う道順を想定して、まずそこから落し物を探しに戻ることになるでしょう。
ベイジアンネットワーク
ベイズの定理の応用として、近年脚光を浴びているものにベイジアンネットワークがあります。
これは、原因と結果の関係を確率的な現象の推移として非循環型の(矢印のついた)グラフに表現するものです。個々の現象はノードと呼ばれ、ノードの互いの結びつきがベイズの流儀で推論されます。
ベイジアンネットワークの適用範囲も広そうですが、人工知能の研究や医療診断、NASAのスペースシャトルのシステム保全などが著名な実例として挙げられます。
その他の応用例
そのほかベイズテクノロジーは金融工学、マクロ経済学にも利用され、また当然マーケティングへの適用も現在さかんに研究されています。
統計学自体でも、ベイズ回帰やベイズ因子分析など従来の多変量解析がベイズのやり方を輸血しています。正規分布を暗黙の前提にしない複雑な事象も、これを使えば有効な答えが出るとかいうことで。
ベイズ統計は現在の『知』の最先端と結びつき、ベイズテクノロジーの名のもとでどんどん大きくなってきています。
世の中的にはこうしてベイズ統計は前途洋々に見えますが、私たち統計の素人からすると、偉くなって図体がでかくなった分取っ掛かりのハードルが一層高まったようにも思えます。
「ベイズ統計がなんぼのものか」を実務家目線で判断するため、もともとのベイズ統計の勘どころをもう一度おさらいすることを次回の課題にいたしましょう。