[HOME] → [通信]

検索エンジンでキーワードの相関を求める

xのヒット数 yのヒット数 x yのヒット数 総ページ数 相関係数

使い方

例えば、

  1. x:「東京」のヒット数が358,000,000、
  2. y「天才」のヒット数が41,900,000件、
  3. xy「東京 天才」のヒット数が6,410,000件
  4. 日本語総ページ数の推定が2,000,000,000と入力後に、
  5. [計算]ボタンを押すと、相関係数が、-0.00992759と負の値になります。

 

Yahoo!検索 - 東京 358000000件 2006/2/11現在
Yahoo!検索 - 天才 41900000件 2006/2/11現在
Yahoo!検索 - 東京 天才 6410000件 2006/2/11現在

2つの単語の相関を検索エンジンのヒット数から求めます。相関係数を求めるために、総ページ数が必要ですが、日本語総ページ数は、はっきりとはわかりません。全言語の1/10程度くらいに設定すれば良いのではないかと思います。Yahooの総ページ数は2005/8の時点で200億ページだったそうです。

仕組み

ソースを見るとわかるように、相関の計算にすぎないので、下の様な式で計算しているだけです。

s=(t*z - x*y )/sqrt(x*(t-x)*y*(t-y));
 

変更

x,y,xy共に1つしかヒットしない場合でも相関係数が1になってしまうのは、ベイズ統計の考え方を無視しているので、その点を変更しました。別のページで散々ベイズ統計の名にふさわしくないスパムフィルターを非難しているわけですから。1,1,1だと 1だったのが0.66に、10,10,10で、1だったのが、0.91に変わります。とかになります。

応用

吉本ファンタンゴを見ていても、ヒット数を比べる遊びとかやっているわけで、「吉本」と最も相関の低い単語を探す遊びとかできるでしょう。別にテレビでなくても、2ch.netとかの遊びにもできるでしょう。

本当は

Yahooも1年前からAPIを公開しているので、100個までの単語を入れて、相関係数行列を作って、最短木なり、主成分分析なりするソフトを書くべきなのですが、すぐ気が散ってしまいます。というか、僕が落穂ひろいするより検索エンジン自身が提供すべき本来的な機能だと思っていてできないというのもあります。Windowsアプリを書いても儲かるのはマイクロソフトだと思ったらプログラミングする気が無くなるみたいなのと同じです。変な癖がついたものです。

2006/2/12追記

 

関連ページ

Googleのヒット数水増し Googleのヒット数表示は水増しされているのでキーワードの相関の計算には使えません。
日本語総ページ数 リンク集
スパムフィルター 通常の統計がベイズ統計の荒い近似なのだから、ベイズにナイーブとつけることで、荒い近似ですますなんてほとんど形容矛盾です。2006/2/12追記

作成 2006/2/11 - 更新 2006/02/12

通信ディレクトリ目次

Google
Web www.PAG1U.net

関連ディレクトリ

発明

個人情報

PC

関連サイト

matsuokahajimeのアンテナ

matsuokahajimeの日記

乱雑な本棚:反グローパリズム

 

 
 
 
 
 
 
 
 
 
 
seo

外部リンク

毎日新聞問題の情報集積wiki - この問題をとりあげたメディア(時系列順) 東京のキー局はそろって沈黙

 

HOME ネットワークディレクトリ (C)松岡肇