(様式1)                     (受付番号          

 

           個人研究推進事業申込書

ふりがな
氏名
 

松岡 肇
 

性別
 


 
生年月日
 
1961 年 2月 15日 ( 38才)
 
国籍
 
日本
 
ふりがな
現住所
 
〒351-0112               Phone 048-451-5533
埼玉県和光市丸山台3-14-3        Fax  048-451-5535
 サニーヒルズ和光318   E-mail datura@PAG1-UNET.ocn.ne.jp
さらに引っ越したのでこの情報は無効です。
川越市在住

 

所属機関




 
ふりがな
所在地
 
〒              Phone
               Fax
               E-mail
機関名
所属部署
 


 
役職名

 


 
連絡先
 
現住所
 
学歴
 
昭和58年3月 東京大学理科I類抹籍
 
研究・職








 
昭和55年2月 統計処理に向いた独自の占星術理論を発明
昭和58年2月〜テレビ朝日に2年間出演
昭和58年8月〜テレビ朝日のスポーツ生番組用テロッパー制作
平成3年〜   音声応答システムの事業化
平成5年〜   減色ソフトpag1テトラヘドロンの開発
平成7年11月 FSP95開発支援ツール部門賞受賞
平成8年〜11年ソフトピアジャパンセンター入居
平成10年9月 通信・放送機構(TAO)の助成金が決定
平成10年9月〜グラデーション近似機能付きベクトル化ツール
 
所属学会
 

 
応募領域
 
・情報と知
 

(p1 /1)

(様式2)                     (受付番号          

 

研究課題要旨

氏名
 
 松岡 肇
 
応募領域
 
 ・情報と知
 
研究課題名
(20字程度)

 検索エンジンを思考の道具にする
 
要旨(背景、研究提案の内容、見通しを明確に記述して下さい。)
 背景
「自転車」と「傘」の関係は?というクイズの正解は「折り畳み」でした。しかし、自転車と傘をキーワードとして検索エンジンから得られるのは雨の日に傘を自転車に取付ける商品でした。検索エンジンは知識を探すだけではなく、欠落した視点を発見できる様になるべきです。

 研究提案の内容
テキストの部分の一致による検索の一方、画像では全体の類似による検索を行っているわけですが、つまりそれは、簡単にするために分析と総合の一方だけで済ませているということです。それらを統合すると、その中間に、文脈や位置関係という様な高次の情報に基づく検索があるはずだと思えます。どの水準を見るのかを設定可能にしても良いし、自動化すれば従来の検索と同じ気軽さで、幅広い答えを引き出せるはずです。

似たテキストを探し出すためには、統計に基づいてキーワードなどの構造化が必要になりますが、これは多次元データのクラスタリングを行う僕のアルゴリズムで何桁も高速化が可能な場面です。また、画像の中の部分で検索できるための画像理解はこれまでの画像関連の研究開発の延長線上にあり、従来のものよりかなり高速な物になる予定です。

 見通し
実現は自明に思えますが、多次元データのクラスタリング関連のアルゴリズムは応用範囲が広く、まだまだバリエーションが出尽くしていません。
提案内容に関するキーワード(10字以内の日本語名詞、6単語以内でお書きくださ
い。)
多次元データ 類似度
クラスタリング 抽象概念
検索エンジン 画像理解

(p2 / 1 )

(様式3)                     (受付番号          

 

研究構想

具体的な研究内容および3年間におけるその進め方をA4用紙5枚以内で記述して下さい。

         (必要に応じて図等を用いていただいても結構です)


 

(1) 研究目的または目標

●インターネットの検索エンジンは、高々、ビットテーブルの論理演算で可能な範囲の簡単な処理しかしていないので、不満があるわけそれを解消します。

●それだけでは、つまらないので、テキストに限らず、画像の検索も可能にします。画像の検索は例示による類似検索だけではなく、テキストの検索の様に部分の一致でリストアップする機能を実現します。

●また、画像の検索の時に使われることの多い、例示によって類似した画像を見つける機能をテキスト検索において実現します。これは、例えば、自分のWebページと似た競合するWebページを見つけて差別化するという用途や、著作権侵害の発見のなどのために具体的に意味があると思います。

●さらに、テキストや画像について、最初に入力されたキーワードなり部分画像からスタートして、抽象度を徐々に上下することで検索キーの概念の精度を指定可能にしたり、本人にとっては常識なのであえて意識に上っていない論理積をとることのできるであろう近傍の概念についても提示し、また精度を確定するという繰り返しによって、最適な検索を可能にします。

(2) 背景

テキストの全文検索型の検索エンジンは、不要な情報がいっぱい並んでしまうというのが最大の問題とされていますが、インターネットでは主流になっています。初期のディレクトリー型の検索エンジンは、現在では検索の比重が下がりポータルサイトとして人気を維持している様です。全文検索型のサイトでは、採取するデータ量を増やす競争が行われ、またその一方で、古い情報を捨てたり、多くのサイトからリンクされているページを優先したり、ユーザーからのフィードバックを利用したりすることによって、意味のある情報を上位に持ってくる工夫が行われています。

また、追加キーワードを例示する機能があるものもあります。しかし、例に挙げた「自転車」と「傘」から「折り畳み」という連想をする問題を解くのには使えません。単なる辞書でもできそうな、folding から bicycles や umbrella を関連語として出してくることさえ現在の検索エンジンにはできませんでした。

これらの原因は、検索エンジンだからといって余りにも検索という処理にとらわれすぎているということにあると思います。持っている多量のデータを最大限に生かしているとは言えません。URLを知っていれば、URLを打ち込めば良いし、探している物の名前を知っていれば、その名前を検索サイトに打ち込めば良いわけですが、利用者が正しいキーワードを知っているとは限りませんし、探している情報が、WWW上に存在するかどうかも実はわからないのがWWWであるわけで、利用者がそのキーワードで検索できれば満足だという前提を捨て、検索エンジンは蓄えている大量の情報を元にできる限りのことをすべきだと思います。

また現在の全文検索型の検索エンジンには、1ページ単位で扱っているという問題があります。文や段落単位やより大きな単位でも良いはずです。

例えば、関連サイトをもれなく見ておきたい場合など、関連キーワードは、絞り込みのためではなく、類義語チェックのために使いたいわけですが、現在は無駄なデータが出過ぎるので、そういう方向には進んでいません。隠れている常識部分を検索エンジン側から提示すればすむはずだと思います。

画像検索については、画像に付属した説明文のキーワードで検索するのがもっとも実用的という様な段階ですが、例示によって、類似画像を検索するシステムも存在します。しかし、画面全体の統計量をキーにしていることが多く、色やテクスチャーに比重がありすぎて、形の情報はあまり使われていません。

(3) 仮説(どのような提案を行っているか)及び手法(どのようなアプローチを取るか)

単語の分布する意味の空間は究極的にはどの程度の自由度の空間に縮約できるか? というのは興味ある問題ですが、実際の処理としては、単語の数と同じだけの次元でそのまま扱ったり、サムネイル画像の様に縮約した意味の空間で扱ったりと、データ量や用途に応じた処理をすることになると思います。いずれにしろ、多次元空間を自在に切り刻むことができなければ、全文検索型の検索エンジンはゴミばかり返すことになってしまいます。

例えば、多次元空間のクラスタリングをそのまま応用して、以下のようなことも可能です。WWWのすべてのページをあらかじめ10ページ前後ずつに分割しそのページを含んで、それに自動的に最大限のキーワードを付加して置き、10ページへのリンクへのリンクを検索結果として返すことも可能なはずです。現在の全文検索エンジンでは、検索結果として、リンクが10個ずつ表示されることが多いわけで、ユーザーは、最初の2,3ページでめげているわけです。しかし、10個のリンクを3ページ見る時間があれば、最大1000個のリンクの中から最適なWebページにジャンプできるわけです。コンピューターというのはそういう使い方をすべきものだと思います。初期のディレクトリ型検索エンジンの偶然と歴史の産物のような不細工なジャンル分けは顰蹙ですが、最下位レベルの類似した1000ページの中から3ページを経て目的の1ページに辿り着くためのキーワードであれば、単語そのものであり、無機的でいかがわしさは臭わないと思います。

ついでに、目的のページが見つからなかった時のために、ノード毎に掲示板を用意しておけば、それを見て誰かがそういうページを作るという可能性も高くなります。

また、結果的には似ていますが、Webページのデータが追加されたり削除された時ではなく、検索のたびに、階層化の処理を行うことも、処理の量がかなり増えますが可能だと思います。

少し話が逸れましたが、自転車と傘から、折り畳みというキーワードが出てくるタイプの検索を行うためには、単に、他の単語との隣接(同じページとか同じ段落とか同じ文に含まれているというのも含めて)確率を2つの単語について求めて積を求めてからリストを提示するというだけの処理でも可能ですが、少し前に思いついた画素の隣接の統計から領域の前後関係を推定するのと同様のアルゴリズムを用いることで、同じデータから、連続的に抽象度を変化させるための構造化が可能ではないかと考えています。

画像理解の方針については、去年の説明と基本的には変わっていません。エッジ検出や、領域併合という様な処理をせずに、色空間内の処理で大半の処理は終わってしまうためにきわめて高速に処理できるというものです。ハードウェア向きのアルゴリズムを作るという考えを捨てて、僕のアルゴリズムをハードウェア化するという方が近道だと思います。グラデーション近似の段階まではコーディングも終わっています。前後関係の判定については、アルゴリズムに変更があり、予定よりやや遅れていて現在コーディング中です。残りはテクスチャーの抽出と、オブジェクト毎のパターンマッチングだけです。テクスチャーの抽出にしろ、パターンマッチングにしろ、多次元空間のクラスタリングのアルゴリズムによって高速化できる部分です。

画像検索エンジンのためには、画像理解だけではなく、色、形、テクスチャーに分解された大量の画像部品を独自形式で保持する必要があるので、画像圧縮も必要になります。

(4) 類似研究との差異

検索エンジンという点では、従来の物は、検索そのものでしかない単純なアルゴリズムで終わっていると思います。コンピュータ内に意味の空間を再構成するための統計サンプルとしてのWWWを使うという立場に立てばできることはいっぱいあります。現在、それがなされていないのは、多次元データを高速に扱えないからでしょう。

画像理解については、従来の研究は、多くの階層に分かれていて、それぞれの人は、一部分の階層だけに取り組んで後は人任せにして満足していたり、応用寄りの研究の場合は条件を限定して簡単な問題に変えてしまっていたりしたと思います。さらに言えば、下位の段階で、必要な情報まで捨てすぎていると思います。いらない情報だけをそぎ落とす様にきちんと最適化すれば、多義性が生じて上位の階層からのフィードバックが必要という様なチグハグな事態が頻発するはずがありません。

(5) これまでに得られた成果

多次元データのクラスタリングを高速に行うアルゴリズムは、これまでに学習エンジン、減色、TSP、ベクトル量子化圧縮、グラデーション近似、境界線データの単純化などいろいろな分野に応用してきました。明らかにうまくいったのは減色の例だけですが、5年経て未だに、最高画質を最高速度で減色できるソフトの地位を保っています。TAOの助成金を得て昨年度から開発している(やや遅れていて、4月末時点ではまだ未完成)グラデーション近似機能付きベクトル化ツールも、完成すれば、既存のものよりファイルサイズが半分以下になる予定です。

多次元データのクラスタリングを行う僕のアルゴリズムは、多次元データを扱う多くの分野に応用可能です。バケット法では、最適化した場合に、一見、サンプル数*log(分割数)にしか比例しなくて、定数の差でしかない様に見えて、実は定数の次元乗に比例する項が隠れているのに対して、僕のアルゴリズムでは、次元に比例する項しかないので、次元が高くなるほど僕のアルゴリズムの高速さが効いてきます。

また、グラデーション近似機能付きベクトル化ツール内の前後関係判定ルーチンのために新たに拡張したアルゴリズムでは、隣接関係のデータから前後関係を判定していますが、その考え方はキーワードの抽象度を微調整する部分に応用できます。

画像理解については、独自の方針で、ボトムアップで徐々に進んでいます。残りはわずかです。

(6) 具体的な研究項目とその内容

1 画像理解

1.1 テクスチャー抽出

1.2 パターンマッチング

2 画像検索

2.1 画像圧縮

2.2 類似度で検索

2.3 部分一致で検索

3 テキスト検索

3.1 部分一致で検索

3.2 類似ページの検索

4 抽象度の微調整機能

4.1 テキスト版

4.2 画像版

5 インターネット関係

5.1 ロボット

5.2 ユーザーインタフェイス

(7) 将来の発展性及び当該研究課題の実施により期待される効果

画像理解、画像検索の部分は、画像理解ベースの映像編集ソフトなど、すぐ実現可能な身近な応用が考えられます。

検索エンジンについてのアイデアは検索エンジンに特化したものなので、転用する意味はあまりありません。しかし、検索エンジンが改良されることで、単に不便で探し損ねただけだと思っていた人々が、WWW上に載っていない情報があることに明確に気づくようになって、それを補い、WWW上の情報の網羅性がますます高まると思います。個々のWebページも互いに矛盾していても平気という状況ではなくなり、影響しあい高めあうようになると思います。

あと、多次元データのクラスタリングのアルゴリズム自体は、まだまだ応用分野が広いので、いろいろ開発しなければなりません。

(8) 研究スケジュール

3年間を単純に割ると、(6)の1つの項目について、3ヶ月毎余りということになるので、なんとか間に合うと思います。





























 

 

バラバラの枠に1つの文書を流し込む機能について、一太郎9のhtmlへの変換に問題があったので、ページ構成は変化しています。

(p7/1  )

(様式4)                     (受付番号          

 

論文・著書リスト

 

最近5カ年に学術誌などに発表した論文、著書、特許などのうち重要なもの5件以内を選んで、現在から順に発表年次を過去に遡って記入して下さい。申請者本人が筆頭著者のものに

ついては、番号に丸印を付けて下さい。

      主要文献(著者・発表論文名・掲載誌・巻号・ページ・発表年)
 

1. 松岡肇・非可逆圧縮画像の客観的画質評価方法 98/8/18出願 平10-267180

2. 松岡肇・色空間上の線分による画像の領域分割 98/8/18出願 平10-267180


3. 松岡肇・ベクトル量子化圧縮の高速化 96/12出願 平8-359414

4. 松岡肇・http://www.PAG1-UNET.OCN.NE.JP

5.


 

 

参考文献

  応募研究課題を読む際に参考となる他の研究者の文献を数点挙げて下さい。

         著者・発表論文名・掲載誌・巻号・ページ・発表年
 








 

 

(p8/1 )

(様式5)                    (受付番号          

 

研究費                          (単位1万円)

項目



 
1年目
(平成11年10月
平成12年9月)
 
2年目
(平成12年10
−平成13年9
月)
3年目
(平成13年10
−平成14年9
月)
合計



 
設備費 100 300 1500 1900
材料費        
その他 400 400 500 1300
合計 500 700 2000  
本研究で使用する主な設備、機器、施設など











 
(既に利用しており、本研究でも継続して利用可能なもの)
開発言語
DOS/Vパソコン5台
OCNエコノミーの回線


 
(新規に購入または借用する必要があるもの)
開発言語のバージョンアップ
開発ツール
高速なサーバーパソコン
検索エンジン用の大きなHDD
太めの回線

 
官公庁、民間機関等 からの助成
  (含申請中)











 
(機関・研究制度名・具体的テーマ名・金額・研究期間についてお書きください。共同申請の場合は、主申請者か副申請者かについてもお書き下さい。)
助成中;






申請中;



 

(p9/1 )

(様式6)                     (受付番号          

 研究参加の形態



 

□ 専任  

□ 兼任
[その他参加に当たっての条件]
 
研究実施場所につい
ての希望


 
□ 現所属機関
□ その他(事業団で用意する場所での実施)
   実施場所に関する希望条件(研究機関、設備、施設、地域など)
現住所の近く。
 
照 会 先
可能ならばあなたとあなたの研究について良く御存知の方を2名挙げて下さい。

 
氏名  児島 宏明
所属  電子技術総合研究所 知能情報部 音声研究室
連絡先 hkojima@etl.go.jp
 
氏名  松本 尚
所属  東京大学大学院理学系研究科 情報科学専攻 平木研究室
連絡先 tm@is.s.u-tokyo.ac.jp
 

(p10/ 1  )

 

(様式7)                    (受付番号          

 

参加する場合のご希望、ご事情その他について、自由に記入して下さい。

妻も働いていて、1月に子供も産まれたので、単身赴任はできません。また妻の現在の仕事の契約は、長くてあと2年で、その後はアメリカに戻ると言っているので、そうなったら、僕はついていくことになります。


























 

    

意味の空間

更新 2004/05/25

 (C)MATSUOKA , Hajime

[HOME][計画]