画像理解

「フォン・ノイマンの生涯」の出だし14ページには、

20世紀が終わるまでには、脳の機能のうち少なくとも視覚は、たとえ仕組みが隅隅までわからなくてもコンピュータの上で再現できるようになるだろう。

という部分があり、画像理解に対してノイマンの設定した締め切りはもう目前に迫っています。(2000/5/14)

画像理解についても、実は十分情報をそぎ落とした後にパターンマッチングするだけの問題という風に考えを変えています。これまでの人は、不用意に必要な情報を捨てて後で困って、後段からのフィードバックが必要とかいうことになっていたのだと思います。世の中錯視図形なんてそんなにあるものではないし、錯覚は人間にだって起こるわけでそれは、しょうがないとあきらめれば、後段からのフィードバックの必然性なんてないわけです。
木の枝で鳴いている鳥の声を聞いて、そちらを見てもすぐには鳥は見えません、音というヒントを含めて、余分な知識を使わずに画像理解を行うという[]僕の考え方は間違っているのでしょうか?

機能的に見ると脳がやっている処理と同じである必要があるので、どんなアルゴリズムを使っても機能は同じで、なぜ僕が高速化できると考えているのか、わかりにくいみたいです。どこまで公開するかという問題もあるので、空欄がありますが、小出しにします。

問題 オーソドックスな方法 僕の予定している方法
エッジ、境界線 エッジ検出から始まるのが普通です。 ありません。
領域分割 分割と併合を繰り返す時間のかかるものでした。 高画質減色ルーチンを生かすために色領域分割を基本に改良しています。
グラデーションの抽出 主に立体の認識の所ででてきます。 これは脳でもかなり初期の段階でやっているはずです。
テクスチャー解析    
模様の抽出    
グループ化    
半透明の認識    
動きの認識 いきなり、人工網膜チップみたいに、階層構造を無視して下位のレベルでやっつけたら、動きだけしか認識できないのでは? それぞれのフレームを正確に捉えていれば、大雑把な統計量だけから動きなんてわかるとおもうのですが。
理解 ノイズに弱いAIベースの理解 多次元データのクラスタリングそのもの。

 

「bit」の2000/10に載っていた理研の人も、エッジ検出から始まる画像理解に否定的でした。 2000/9/15追記

画像理解と言っても用途によって、幅広いと思います。

子供の頃読んだ漫画には、背景の写真を見て、地図の等高線データと照合して、犯人の居場所を突き止めるコンピュータが出てきました。多分、そこまで行っていないと思いますが、リモートセンシングで、地表の物体を識別するという様な分野では実用の技術になっているはずです。
昔のトランジスタ技術には顔を見て美人かどうか判別するインターフォンというイラストがついていました。顔の画像が誰だか判別するという用途は、肖像権侵害がないか調べてまわるインターネットのロボットには必要な機能ですし、画像理解によって、顔と表情のデータに分離できれば、テレビ電話の圧縮率が高まります。顔の情報を40バイト程に圧縮して保存する仕組みも10年以上昔、何かに載っていました。
最近は、電総研とオムロンの共同研究で切手の絵柄を検索するシステムを見かけました。これは、以前は、商標の検索システムとして発表されていたそうです。似たようなので、名画を検索する仕組みもNECが良くTVでデモしていたと思います。おもしろそうですが、切手の枠が存在するわけで、その分問題が簡単になっています。虎の画像を探し出すという目的とはまた別の用途です。
「サイエンス」の97/9号には、「絵の特徴から選び出す画像検索法」という記事が載っていました。これは、それ以前にも、ヌード写真を検索する機能がクローズアップされて、TVなどでも紹介されていました。「サイエンス」では虎の画像を探し出すという例も載っていました。
インターネットを「画像理解」で検索すると、エッジ抽出や動きの検出みたいな処理も出てきます。文字に限れば、OCR製品が氾濫していますし、昔と違って、郵便番号の認識は、赤い枠からはみ出していても平気になっているそうです。工場で、不良品検査を行っているコンピュータにとっての画像理解というと、そういうことになります。
先日のロボカップ97で、ボールとゴールと、敵味方を判別しているのも画像理解ルーチンでしょう。自動車を人間が運転する必要が無いようにするためにも、画像理解は必須の技術です。画像から3次元構造を推定できるようになれば、CG制作なども簡単になるでしょう。

並べるとあまりにも広い分野だと思ってしまいます。一方、僕が作りたいと言っているのは、減色ソフトをふまえて、その発展としての画像分類、検索、理解です。リアルタイムの画像理解というのではなくて、3D編集のための3Dモデルの作成です。ベクトル量子化圧縮の時に先行していたゲンテックが、この分野でも、制約付きですが、すでに製品を出しています。画像分類は、様々な画像ファイルがどこにあるか探し出す時に、便利なはずです。

結局、具体的には何もしないまま無為の日々をすごしていますが、『日経サイエンス2006/5』を読んでいたら、今日2006/4/28はゲーデル生誕100年の記念日だと指摘してありました.その関連の記事がオメガ数で、あまり面白くはない記事だったのですが、圧縮の極限が理解であるという同じ意見の人でした.でも、きっとこれは、以前に別の人が同じ考えを述べていたからに違いないとか思います.案外『ゲーデル・エッシャー・バッハ』あたりだったりしないかな?

2006/4/28追記

関連ページ

MPEG
鉄腕アトムという締め切り

外部リンク

時事ドットコム:被写体を自動認識=画像検索、1万倍に高速化−新システムを開発・東大 NHKのニュースで見ました。エッジの両側の色の組み合わせの頻度を特徴量として使っているようです。それくらいは誰もがずっと前に思いついたと思いますが、今のCPUパワーではまだまだそれくらいが、ちょうどということなのでしょうか? もうちょっとリッチな仕組みじゃないとつまらない気がします。またニュースでは、シマウマをどう学習させたのか? という疑問が残りました。あらかじめシマウマのサンプル画像を与えておくのだとしたら、これもまたつまらない気がします。ただし、物のそれ自体の名前をキーワードにした場合でなくて、より抽象的な概念をキーワードにした場合についてもデモしていたので、もう少し賢いのかも知れません。ニュースを途中から見たし、テレビニュースで詳しい話をするはずもなく、どうなのかわかりません。僕がかなり昔に、さきがけ21に提出した企画書ではさらにもっと欲張った仕様になっていました。まあ、欲張らずにどれだけ割り切れるかが、実際のシステムとして仕上げるには重要ですが。というか、日本の著作権法では検索エンジンを公開することが違法かどうかという問題をさっさとクリアにすべきだと思いますが。 2007/9/19追記

 作成 1999/7/21 ? - 更新 2007/09/20

 (C)MATSUOKA , Hajime

[HOME][計画]