[HOME] → [通信]

スパムフィルター

ベイズ統計を正しく実装していないのにベイズジアンと名乗るのは不当表示

でっちあげ 左のページの下のほうで、でポールグレアムのインチキを攻撃しています.

アメリカで、70歳代の修道女が、テロリストとして取り調べられたという事件があったそうです.原因は、難民支援の寄付をしたことを、メキシコ反政府組織への資金提供と解釈する乱暴なプログラムのせいだったそうです.

犯罪の起こりやすい曜日や地域を特定し、そこに集中的に警官を配備するという様なプログラムは有名ですが、その仲間でしょうね.これらのソフトウェアもすべてベイズ統計を名乗っているはずで、正しい実装だと信じたいですが、修道女の例のような極端で2値的な動作をするプログラムがあるとすると、それはポールグレアム級のプログラマが他にもいてその作品かもしれません.

ベイズ統計の説明はしません

背景にある確率構造を推定するためにベイズ確率を用いる応用がほとんどであるわけですが、事前確率が新たな知識が加わることで更新されるということを言いたいがために、「3つの箱のうちの1つにプレゼントが入っています.1つの箱を空けたら空でした」みたいな場面で説明する人がいるせいでベイズ統計について早とちりしている人がいるのだと思います.誤解を増やしたくないので説明はしません.

暗い道で物を落とした時に落とした場所ではなく、街頭の下だけを探すという例え話があります. 日々繰り返すすべての判断に十分な統計的データがそろっているわけではありませんが、サンプル数が少なくて有意水準に達しないからと、ありそうな場所という仮説の代わりに帰無仮説を採用し、無いけれど探しやすい場所を探すという話でもあります.

ベイズ統計の必要性

200軒のサンプルで1軒だけNHK教育を見ていたときに、

視聴率は0.5%? これは小学生にはわかりやすいですね
視聴率は0.5%±1%? これは正規分布の式を習った高校生むけですが、裾野がマイナスの視聴率まではみ出すのはなんとも、見苦しい.
横軸に視聴率縦軸に尤度の関数表示? ベイズ統計で扱いやすいのはこういう表現です.Excelにベイズ統計は載っていませんが、大学の教科書にはでてきます.

わざわざそんなことをしないといけないのは、少しでも情報を有効に使い誤差を減らした表現をしたいからです.

スパムフィルターの問題を置き換えてみる

漢字のラスタイメージの中から馬偏の漢字を選び出すのを助けるプログラムという宿題が出たと想像してください日本で手書きの郵便番号認識が実現したのが1968年ですから、それより簡単な問題であることは確かです

7000字ほどの漢字が7000通ほどのメールに対応し、馬偏の漢字が、必要なメール、馬偏でない漢字がスパムメールに対応しているという様に考えることができるでしょう.

この宿題にベイズ統計を使いますか? ユークリッド距離か、内積を指標にするでしょうね。

スパムフィルターのユーザーインタフェイス(朝三暮四)

スパムが蔓延しているひどい現状に対して、スパムメールを学習させるという自分の行動がなんらかの解決につながっているという幻想によってスパムによって生じるストレスが多少なりとも軽減されるという心理的な効果が大きいのでしょう。どんなに調整しても解決にはならないけれど、関係のない要調整箇所でもないよりはましという例は、ワインバーグの本に出てきたのでしたっけ? 映画「ライトスタッフ」の宇宙飛行士が、手動操縦できない棺桶になら猿を乗せろと強く主張していたのと同じ心理です.合計は変わりなくても朝と暮れのえさの比率を変えることで、猿を納得させる中国の寓話も、同じです.

関連ページ

検索エンジンでキーワードの相関を求める こんな短いプログラムでもベイズ統計は気になるわけです。2006/2/12追記

作成 2005/2/14 - 更新 2006/02/12

通信ディレクトリ目次

Google
Web www.PAG1U.net

関連ディレクトリ

発明

個人情報

PC

関連サイト

matsuokahajimeのアンテナ

matsuokahajimeの日記

乱雑な本棚:反グローパリズム

 

 
 
 
 
 
 
 
 
 
 
seo

外部リンク

毎日新聞問題の情報集積wiki - この問題をとりあげたメディア(時系列順) 東京のキー局はそろって沈黙

 

HOME ネットワークディレクトリ (C)松岡肇