機械学習と読書の世界

「認識と生成は対である、という発見がAIに想像力を与える」 2017年2月

ディープラーニングの研究が進んでいくと、人間の持つ能力が次第に解明されてくる。『物体を認識するとは、どういうことか』という、哲学的にも聞こえてしまう問いがある。これがディープラーニングを勉強していくと、「認識とは分類すること」という実にシンプルな解答に出合ってしまうのだ。つまり『認識するとは、対象となるものを既に自分が取得した「概念」に当てはめること』と解釈ができてしまう。ここでの「概念」を、「特徴量の集合体」と言い換えると、ディープラーニングは物体認識をしていることとなる。

「創造力」は、人間にしか持ち得ない能力と思われている。絵画や音楽、小説や漫画などのコンテンツ創作は、いくら人工知能とやらが発達しても、簡単にはできないはずだった。しかし最近の急速なディープラーニング研究によって、この「創作」の秘密が次第に解明されてきているようだ。例えば「新しい画像を生成する」という行為は、創作することの端緒と言ってもいいはずだろう。この画像生成を、既に研究レベルでは実現しているのだ。

この『どうすれば新しい画像を生成できるか』という問いに対しては、「生成と認識は対になっている」というシンプルな考えから導かれる。つまり、『対象物XをZと認識(分類)できるということは、Zの認識過程を遡ることでXに到達できる』と考えるのだ。例えば、リンゴの画像を「リンゴ」と認識できるなら、「リンゴ」という言葉から「リンゴの画像」を生成できるだろうというものだ。

CNNのようなディープラーニングの場合、リンゴの画像をリンゴと認識させるには、大量のリンゴの画像を学習させて、リンゴの特徴をニューラルネットワークに覚えさせる。抽出されたリンゴの特徴量は、ニューラルネットワークの上位層に行くほど抽象度が高くなる。単純に言うと、この抽象化されたリンゴのイメージを取り出せば、リンゴの画像になる。
これでは新しく画像を生成したのではなく、単に学習した画像データを平均化して表示しているだけ、と思うかもしれない。しかし面白いのは、GANGenerative Adversarial Net)のような深層生成モデルを用いると、画像同士を演算して教師データにはない新しい画像を生成できるのだ。例えば、笑っている女性の顔の画像と無表情の男性画像から、笑っている男性画像を生成したり、サングラスをかけた男性の顔の画像と普通の女性の画像から、サングラスをかけた女性画像を生成できるのだ。こうなると、ある程度の創造性が含まれていると言ってもよいかもしれない。

人間もまったくの「無」から絵や音楽を作り出しているのではなく、最初は自然の模倣から始まっているはず。だから創造ができるといっても、結局人間も同じようなことを無自覚で行っているのかもしれない。
マスコミが喧伝する「人工知能」という言葉は、昔からニューラルネットワークや機械学習などを研究している人にとっては、タブーだった。かつて何度もあった人工知能ブームは挫折を繰り返し、トラウマになっているからだ。そもそも「知能」の定義すらできないのに、そんなものが人工的に作れるわけはない、という意見もある。
しかし、ニューラルネットワークから急速に進展してきた最近の研究成果を見ていると、今回の人工知能ブームは本物なのかもしれないと、思うようになってきた。画像認識、音声認識は実用化の域に達しそうで、自然言語の認識もかなりの精度で出来つつある。さらに画像の生成においては、創造性の萌芽までみせている。今後もICTの進化が著しいはずなので、人工知能の研究速度はさらに加速度を上げていくだろう。そうなると、カーツワイルの唱えるシンギュラリティは、2045年を待つ必要はないのかもしれない。

  Amazonで発売中

よくわかるディープラーニングの仕組み
ディープラーニングの動作原理を、CNNからRNN,LSTMまで図解して解説します。学生や忙しいビジネスマンに最適な深層学習入門書です。 (電子書籍版780円)

  Amazonで発売中

ビジネスで使う機械学習
ビジネスマンのための機械学習入門書です。ビジネスで機械学習を活用するためのノウハウが書いてあります。 (PCやタブレットで読める電子書籍版780円)
PAGETOP
Copyright © TickTack World All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.