ディープラーニングの研究が進んでいくと、人間の持つ能力が次第に解明されてくる。『物体を認識するとは、どういうことか』という、哲学的にも聞こえてしまう問いがある。これがディープラーニングを勉強していくと、「認識とは分類すること」という実にシンプルな解答に出合ってしまうのだ。つまり『認識するとは、対象となるものを既に自分が取得した「概念」に当てはめること』と解釈ができてしまう。ここでの「概念」を、「特徴量の集合体」と言い換えると、ディープラーニングは物体認識をしていることとなる。
「創造力」は、人間にしか持ち得ない能力と思われている。絵画や音楽、小説や漫画などのコンテンツ創作は、いくら人工知能とやらが発達しても、簡単にはできないはずだった。しかし最近の急速なディープラーニング研究によって、この「創作」の秘密が次第に解明されてきているようだ。例えば「新しい画像を生成する」という行為は、創作することの端緒と言ってもいいはずだろう。この画像生成を、既に研究レベルでは実現しているのだ。
この『どうすれば新しい画像を生成できるか』という問いに対しては、「生成と認識は対になっている」というシンプルな考えから導かれる。つまり、『対象物XをZと認識(分類)できるということは、Zの認識過程を遡ることでXに到達できる』と考えるのだ。例えば、リンゴの画像を「リンゴ」と認識できるなら、「リンゴ」という言葉から「リンゴの画像」を生成できるだろうというものだ。
CNNのようなディープラーニングの場合、リンゴの画像をリンゴと認識させるには、大量のリンゴの画像を学習させて、リンゴの特徴をニューラルネットワークに覚えさせる。抽出されたリンゴの特徴量は、ニューラルネットワークの上位層に行くほど抽象度が高くなる。単純に言うと、この抽象化されたリンゴのイメージを取り出せば、リンゴの画像になる。
これでは新しく画像を生成したのではなく、単に学習した画像データを平均化して表示しているだけ、と思うかもしれない。しかし面白いのは、GAN(Generative Adversarial Net)のような深層生成モデルを用いると、画像同士を演算して教師データにはない新しい画像を生成できるのだ。例えば、笑っている女性の顔の画像と無表情の男性画像から、笑っている男性画像を生成したり、サングラスをかけた男性の顔の画像と普通の女性の画像から、サングラスをかけた女性画像を生成できるのだ。こうなると、ある程度の創造性が含まれていると言ってもよいかもしれない。
人間もまったくの「無」から絵や音楽を作り出しているのではなく、最初は自然の模倣から始まっているはず。だから創造ができるといっても、結局人間も同じようなことを無自覚で行っているのかもしれない。
マスコミが喧伝する「人工知能」という言葉は、昔からニューラルネットワークや機械学習などを研究している人にとっては、タブーだった。かつて何度もあった人工知能ブームは挫折を繰り返し、トラウマになっているからだ。そもそも「知能」の定義すらできないのに、そんなものが人工的に作れるわけはない、という意見もある。
しかし、ニューラルネットワークから急速に進展してきた最近の研究成果を見ていると、今回の人工知能ブームは本物なのかもしれないと、思うようになってきた。画像認識、音声認識は実用化の域に達しそうで、自然言語の認識もかなりの精度で出来つつある。さらに画像の生成においては、創造性の萌芽までみせている。今後もICTの進化が著しいはずなので、人工知能の研究速度はさらに加速度を上げていくだろう。そうなると、カーツワイルの唱えるシンギュラリティは、2045年を待つ必要はないのかもしれない。