株式会社ジャパン・マーケティング・エージェンシー
企画部 大阪事務所 マネージャー 上田 牧人
企画部 大阪事務所 マネージャー 上田 牧人
以下、東日本大震災が起きる直前に書いたものであることをお断り申し上げます。
ベイズのパラドックス
ベイズ統計は、データ分析に分析者の「主観」を取り込むことによって、より現実的で自然な判断に近い<指針>をもたらしてくれるものです。
ところが、この「主観」が厳密さに欠けるという非難を浴びる元になりました。研究者たちは何とか批判を払拭するため、理論の深化や論理的手続きの合理性を追求して今日に至りました。
皮肉なことに、そうして築き上げた緻密な体系が、実務への導入に対して壁を作ってしまったようにも思います。
今回は、多様なベイズの世界のなかで、これならやれるかも、といったやり口を取り上げてみます。
ナイーブベイズ(単純ベイズ分類器)
問題を単純化するため、すべての要素を○と▲の2分類で考えてみましょう。
経験的に、新製品の成功/失敗が、デザイン(D)と機能(F)と価格(P)でおおよそ決まるものとします。
いまテスト品の調査結果がデザインと機能は○だが価格は▲の評価が出たとき、成功/失敗のどちらにころぶかを現時点で予想するにはどうすれば良いでしょう。
(1)まず、過去の経験を成功の束と失敗の束に分けます。
(2)それぞれの束のなかで、デザイン、機能、価格の各○▲の数を数えておきます。
(3)ベイズの定理を使って成功確率と失敗確率を計算します。
a 成功確率∝(成功束のなかのD○比率×F○比率×P▲比率)×成功率(成功束の比率)
b 失敗確率∝(失敗束のなかのD○比率×F○比率×P▲比率)×失敗率(失敗束の比率)
(4)比例定数は同じなので、a/(a+b)が求める成功確率になります。
簡単ですね。こんなシンプルな作りでも、経験データがたくさんあって、評価要素もたくさん放り込むことができれば、けっこう当たるといわれています。ITの領域やデータマイニングの分野ではよく使われる方法のひとつです。
正規分布の場合
マーケティングの場合、POSデータを除き、経験データがそれほど多くないのがふつうです。それゆえ、もう少し丁寧にデータを扱わざるをえなくなります。いま、調査からテスト品の成功を予測する結果が出されたとします。それを鵜呑みにせず、過去の経験に照らして判断することを考えましょう。
(1) 過去の新製品データから、成功確率を平均μ0と分散σ0の正規分布として設定します。
(2) テスト品の評価値dが経験的に分散ρの誤差を含んでいると分かっているものとします。
(3) 尤度が正規分布N(d ρ)、事前分布が正規分布N(μ0, σ0)にしたがうとき、求める事後分布も正規分布となり、その平均μ1と分散σ1は次のような簡単な式で計算することができます。
μ1=(d/ρ+μ0/σ0)/(1/ρ+1/σ0)
σ1=1/(1/ρ+1/σ0)
簡便のため1変量のみとしましたが、多変量への拡張が可能です。ナイーブベイズで取り上げた問題に即して拡張すれば、回帰分析モデルになります。
ベイズ回帰がふつうの回帰分析と異なるのは、標準誤差として扱われる外れ分を確率的な「ゆらぎ」として係数(パラメーター)に取り込むことです。それによって新規データを得たときにパラメーターの更新が可能になるというわけです。
問題の延長
上の説明には実はごまかしがあります。上記公式が使えるのは分散が既知の場合だけです。
公式をよくよく見ればわかると思いますが、事後平均も事後分散も1/ρと1/σ0の加重平均になっています。分散の逆数は【精度】と呼ばれ、そのバランスによってデータと事前情報の重みが変わってしまうので大変重要です。
そこを「・・・として設定します。」とか「分かっているものとします。」とかいう書き方にしているのはずるいですね。
平均も分散も未知なものとして推定していくのが正当なやり方でしょうが、それはまた大変なことで、本稿の域を超えてしまいます。ここのところだけは手馴れたプロの手を借りることにいたしましょう。
どうしても自前でやりたいなら、過去の経験データを学習群と検証群に分け、学習結果で得たモデルが検証群でうまくあてはまるよう分散パラメーターのさじ加減をおこなうといった方法も考えられるでしょう。
これをもって、ひとまず本連載の終了とさせていただきます。
ここまでが、今回の震災の直前に書いたものです。予定としては、次回に「階層ベイズ」を使ったマーケティングの研究事例の1つをご紹介して、本連載の締めくくりにするはずでしたが...気が変わりました。圧倒的な出来事を前にして、書くべきことがほかにあるだろうと感じたからです。
今回の地震・津波において、瞬時の判断と偶然的事象が重なった"ほんのちょっとの違い"が生死を左右したりもしただろうと思います。福島原発の問題では、刻々と変わる事態に対して最適の判断が求められています。
ベイズの真価は、もともと不確実な<その場の決断>に関わるところにあります。
下図のような決定木に対してすべての確率が分かっていれば合理的判断が可能ですが、実際の局面では部分しか見えないのがふつうです。ベイズを学習することは、"その場の直観力"を磨くことにどこまでつながるでしょうか。
こうした統計手法が生身の人間に対してどんな役に立ちそうか、時間をかけて考え直してみたいと思います。
