構造モデルと意味モデルと事前情報を用いて視覚経験を「再構成」

 Gallantラボの自然画像デコーディング論文第2弾。前回のカードトリック論文(Kay et al. 2008)(fMRIで記録された脳活動を解析することで、任意の120枚の自然画像のうち被験者がどれを見ていたかを当てる。)をさらに推し進めて、もう少し視覚経験の「再構成」に近づけたもの。


Bayesian reconstruction of natural images from human brain activity.
Naselaris T, Prenger RJ, Kay KN, Oliver M, Gallant JL.
Neuron. 2009 Sep 24;63(6):902-15.


 今回の論文で採用された新しい試みは主に2つあって、一つはベイズ推定の枠組みを使って事前情報を「再構成」に組み入れたこと。もう一つは、視覚エンコーディングモデルとして初期視覚野を模した構造モデルだけでなく、より高次の視覚野を対象にした意味モデルも取り入れたこと。


 最近相次いで発表されている視覚経験の再構成を試みた論文(Thirion et al. 2006; Miyawaki et al. 2008)では、視覚野の信号Rから視覚経験Sを求める、つまりS=f(R)あるいは確率分布としてp(S|R)という形のモデルを作ろうとしていた。これに対し今回の論文ではベイズの定理:


p(S|R) ∝ p(R|S)p(S)


を用いることで、p(S|R)を直接求めるのではなくp(R|S)とp(S)を求める(あるいは仮定する)ことを通じて再構成(MAP推定)を試みている。p(R|S)は画像Sを見たときに信号Rが観測される確率分布で、いわゆる受容野モデルなどのSからRを予測するモデルが対応する。p(S)は再構成するべき画像に関する事前情報で、今回の場合は自然画像を対象としているので自然画像っぽいSなら確率が上がるような確率分布を当てはめてやればよいということになる。


 ただ残念な事に、今のところ人類は明示的なp(S)を持っていない、つまり任意の画像Sを入れたらSが自然画像である確率を返してくれるような関数を設計できていない。論文では次善の策として、600万枚の自然画像を用意して、その中に入っている画像は全部同様に自然画像っぽい画像としている(暗黙的自然画像分布)。その上で上式を最大化する画像を探してみたら、なんかそれらしい画像が選ばれましたと。やっていることを見たら単にカードトリックを前回の120枚から今回の6,000,000枚に拡張しただけに見えるかもしれないけれど、その心は一応ベイジアン的な意味で「再構成」なんですよ、という話。


 さらに、p(R|S)として従来の構造モデル(受容野モデル)だけでなく意味モデルも組み入れている。高次視覚野の細胞(やvoxel)は(それがどういう画像処理なのかは置いておいて)「顔」だとか「建物」だとかに反応することが知られている。見せる画像にそれらのラベルさえついていれば、個々のvoxelがどのラベルがついた画像にどれだけ反応するかという定量的なモデル(意味モデル)を作ることも出来るはず。実際見せる画像に全部(手動で)ラベルをつけた上でモデルを学習させてみたら、高次視覚野のvoxelは構造モデルより意味モデルの方でより上手く説明できたと。じゃあ初期視覚野のp(R|S)には構造モデル、高次視覚野のp(R|S)には意味モデルを当てはめて「再構成」をやってみたら、更に上手いこと行きましたと。


 枠組みとしてp(R|S)とp(S)を分けることで、非常に見通しがよくなっている。p(R|S)には神経科学の知見をたぶん何でも入れることができる。今後研究が進むであろう中次・高次視覚野のエンコーディングモデルも基本的にはすべてp(R|S)の形で記述されるはずなので、モデルが出来たそばからそのまま試せる。視覚だけじゃなくて聴覚や言語処理、もっと言えばWIREDのインタビューでGallantさんが言っているように、心の中のつぶやきなんかも枠組みとしては同様に対処できる(それがBOLDその他の信号として取り出せるかどうかは別として)。この場合は自然聴覚入力や自然言語に内在する性質がp(S)を決めることになる。


 個人的には、デコーディングそのものは(今のところ)科学だとは思わない。でもp(R|S)は神経科学で、p(S)は自然入力とは何かということに関する科学だと思う。その2つが重なったところのある種のデモンストレーションの場として、デコーディングというのは面白いと思う。また最近のデコーディング論文ではみんな脳内イメージとか夢をデコードすることに言及しているけれど、これが本当に実現されたらそれは新しい種類の科学の始まりだとも思う。脳内イメージを可視化することは非常に原始的な形ながらすでに一部成功している(Thirion et al. 2006)ので、これはあながち夢物語ではないかもしれない。