クエリーアイ株式会社は、人工知能「零」が書いた書籍「賢人降臨」(けんじんこうりん)を、8月24日電子書籍で出版した。この「賢人降臨」は、クエリーアイがディープラーニングで福沢諭吉「学問のすゝめ」、新渡戸稲造「自警録」の二冊を学習させ、文章を創作させたものだ。
お題は以下の五つで、本書はこのお題の答えを零が著したもの。それぞれ第一から第五の章とした五章構成で、総計約六万文字、一般的な新書の約半分に相当する量だ。
「若者」、「学問を修め立身」、「世界を制する」、「成功とは」、「人とは何を示すもの」
ここから導きだされた、それぞれの最初の文は、以下になる。
「若者もあり、あるいは才智|逞《たくま》しゅうして役人となり商人となりて天下を動かす者もあり・・・」
「学問を修め立身分を用うるの理あり。・・・」
「世界を制する者ははなはだ少ない。・・・」
「成功とはなんぞまらぬことである。・・・」
「人とは何を示すものでない。いつぞそういう者でもよい。・・・」
このクエリーアイ社は2010年創業で、名古屋大学と産学共同研究を行っているベンチャー企業。ディープラーニング特にRNN(Recurrent neural network)を得意としているようだ。この再帰型ニューラルネットワークは、画像処理で用いられるディープラーニングCNNと異なり、音声のような可変長データを扱うためのディープラーニング。文章も可変長データであり、対象となる単語の前後にある単語と関係が深いため、最近は自然言語処理にも、このRNNを用いた研究が進んでいる。
人工知能に小説を書かそうという試みは、「きまぐれ人工知能プロジェクト作家ですのよ」が「星新一賞」へ応募で一躍有名になった。しかし、現段階では人工知能が100%書いているわけではなく、かなり人出をかけているのが実態だ。しかし「賢人降臨」は、人が本文の校閲、校正を一切していないとのことだから、一気にレベルアップしている。
自然言語処理でディープラーニングを用いる場合、RNNでも最近はLSTM(Long Short-Term Memory)が流行り。これはシーケンシャルに入力されてくる「言葉」を、その前後関係も含めて「予測」する場合、長期間の前後関係まで考慮しようとすると、計算量が爆発してしまう。しかし、このLSTMは長期の依存関係を学習できる素晴らしいアルゴリズムなのだ。クエリーアイ社はLSTMを得意としており、IBMのSoftLayerにGPUを搭載した物理サーバを持っているようなので、この「賢人降臨」が出来たと思われる。
ただ小説と異なり、この「賢人降臨」には、ストーリーがあるわけではない。「学問のすゝめ」と「自警録」を学習させたRNNに、「お題」を与えて「予測」させたものだ。したがってRNNは与えられた「お題」、例えば「若者」という単語に続く「出現頻度の高い文章」を生成したものと解釈ができる。
それにしても、人がまともに読める文章が自動で生成できたのだから、素晴らしい成果と言えるだろう。単純に、LSTMに大量の文章を読み込ませただけでは、まともな文章は出力されないはず。何かノウハウがあるはずだが、まあ大学ではないので企業秘密だろうな。