2017年10月、ディープラーニングを超える画期的なモデルが発表された。現在大ブームとなっているディープラーニングは、トロント大学のヒントン(Hinton)教授たちが考案したニューラルネットワークであるCNNが発端だった。現在はGoogleに在籍しているヒントンは、このCNNが抱えている根本的問題を解決するモデル、カプセルネットワーク(Capsule Network)を発表したのだ。
CNNは、従来の画像認識手法を大きく超える性能を有している。畳込み層というネットワークで、注目画素の近傍の画素をまとめて特徴量を抽出し、プーリング層で画像の局所的ゆがみや平行移動の影響を受けにくい頑強性を得ている。これにより、他の画像認識手法を圧倒する性能を得ることができ、それどころか囲碁やチェスなどのボードゲームでは、人間を打ち負かしてしまった。
しかしヒントンは、このCNNには根本的に欠陥があると指摘した。CNNで使われるプーリング処理は、位置不変性を獲得するが、同時に各特長間の空間的位置関係を消失してしまうというのだ。この意味は、図を見ると分かりやすい。
左の図は人の顔だが、右の図は顔のパーツをバラバラに配置したものだ。CNNは、この2つの図を同じものと認識してしまう。右の図には、左の図にある目・口・鼻という特徴があるからだ。つまりCNNは画像の空間的配置を無視してしまうのだ。
この欠陥を克服しようとしたのが、カプセルネットワークだ。このカプセルネットワークの特徴は、従来のCNNなどのニューラルネットワークが、プーリング処理により特徴量をスカラー値として出力していたものを、空間情報をベクトルで出力したところにある。つまり、従来のニューラルネットワークは、入出力ともスカラー値で処理していたが、カプセルネットワークでは、スカラーの代わりに入出力ともベクトルを用いて処理している。これによりカプセルネットワークは空間情報を保持し、目や鼻などのパーツ間の位置関係が同じであれば、同じ顔と認識ができるのだ。
これ以外にも、従来に比べて格段に少ない教師データ量で、非常に良い精度が得られるそうだ。このカプセルネットワークは、まだ発表されたばかりなので、本格的な研究はこれからだろうが、ディープニューラルネットワークの急速な進化は、まだまだ続くようである。