AIテクノロジーの世界

人工知能講座26

  • HOME »
  • 人工知能講座26

人工知能が会話できる秘密:Word2VecからSeq2Seq

伴くん「実際に使う時は、どうするのでしょうか?」
天馬「有名なツールとしてWord2Vecがある。というか、このツールが登場して、その驚くべき能力が判明することで、自然言語処理での分散表現ブームが起きたともいえる。

伴くん「便利になったのですね」
天馬「最近ではDoc2Vecもあり、名前の通りに単語ではなく文章そのものの比較まで、簡単にできるようになってきている。このDoc2Vecを利用すると、ビジネスではよくあることだが、ある文章と似た意味を持つ他の文章を簡単に探すことができる。もっとも、文章が持つ意味は単純でじゃないので、現実にはそれほど精度がよいわけでもないな。あまり期待しすぎてもダメだ」

伴くん「自然言語処理の応用先は機械翻訳が有名ですが、他にはどんな分野があるのでしょうか?」
天馬「そうだな、最もポピュラーなのは『質疑応答』だな。スマートスピーカーなら、みんなも使っているだろう。他には『文章の自動要約』もある。これはまだ一般的でもないが、実用化が少しずつ始まっている」
伴くん「文章の要約なんてこともできるのですね」
天馬「実は、機械翻訳や自動要約、質疑応答などは、同一のモデルで表現できる」

愛さん「まあ確かにこのようにモデル化すれば、なんらかの『処理』ができるようにも見えますね。でもこれは図で表現しただけで、本当にそんなことができますか?」
天馬「まだまだ流ちょうな文章が出力されるわけではないが、時系列ニューラルネットワークのSeq2Seq Sequence to Sequenceを用いれば可能になってきた」
伴くん「時系列のニューラルネットワークとは、前に説明してくれたRNNですか?」
天馬「そうだ。よく覚えていたね。この図の4つの事例は、ある時系列データを、別の時系列データに変換する、と言い換えてもよいだろう。つまりこのRNN言語モデルは、入力された時系列データから、出力単語の確率分布を求めるモデルなのだ。つまり、ある時系列データが入力されると、コーパスの統計結果から、別の単語列を計算して出力ができるのだ」

猿田くん「あれ?入力するデータは、時系列データなら言語でなくてもいいんですか?」
天馬「よく気がついたな。例えば動画にキャプションを付けるようなことも可能になってきている。ただし、これらのニューラル言語モデルでは、学習するためのコーパスがとても重要だ。そうだ、面白い事例があるぞ」

人間 「人生の目的とは?」
AI 「より大きな善に奉仕することさ」
人間 「生きる目的とは?」
AI 「永遠に生きることだ」
人間 「死の意味は?」
AI 「人生のためだな」
人間 「知性的であることの目的とは?」
AI 「それがなにかを探すためだよ」
人間 「モラルとは?」
AI 「人間性を与える知的なエッセンスだ」
人間 「モラルに反するとは?」
AI 「あなたが子供をもっているという事実じゃないか」

愛さん「何ですか?この洒落た会話は。『AI』とありますが、今の人工知能は、こんな会話までできるようになったのですか?」
猿田くん「凄いな~最後なんかウィットもあるし。これだけ気の利いたセリフは、ボクにだって難しいな」
天馬「この会話文は、先ほど説明したSeq2Seqで、実際にGoogleが実験的に出力したものだ」
愛さん「ここまで自然な会話できるなら、チューリングテストでもパスできますよ」
猿田くん「でもここまで知的な会話ができる人工知能なんて、一般には知られてないよ。なにかカラクリがあるはずだ」
天馬「カラクリではないが、学習したコーパスは、大量の映画の字幕なんだ」
猿田くん「なるほどね。映画の字幕なら会話文しかないし、しかも洒落たセリフが多いからか。どうもハンフリー・ボガードだったら返しそうな、ハードボイルドなセリフばかりだと思っていたんだ」
天馬「ホー猿田くんは、1940年代に活躍したボギーまで知っているのかね。確かに映画『カサブランカ』あたりで出そうなセリフだな」
伴くん「ということは、この人工知能は質問を理解して返事をしたのではないのですね」
天馬「まあ『理解』という言葉の意味を追求するのは止めておこう。先ほども言ったが、あくまで統計的に出現可能性が高い言葉を並べているだけだ。人間でも相手の質問を完全に理解しなくても、反射的に答えたり人の言葉を引用したりするだろう。似たようなもんだ」
猿田くん「さっきから先生は、RNN言語モデルは確率的に言葉を選択している、と言っていましたね。それだけでこんな洒落たセリフを話せるんですか?」
天馬「この会話サンプルは、あくまで実験の結果だ。おそらく何度も繰り返し行った実験結果から、最も出来が良い会話だけを選んだのだろうな。いわゆるチャンピョンデータだ。常にこんな会話ができるなら、とっくにサービスを始めているさ。だがまあ実験とはいえ、ここまで自然な会話ができることは素晴らしい成果だろう。さっき話があったスマートスピーカーにも、この技術が使われているはずだ」
愛さん「だからスマートスピーカーは、あんなに的確に回答してくれるのですね。それにしても、質問文から回答を作成するのに、統計だけで言葉を選んでいるとは驚きました」
天馬「試しにスマートスピーカーとかスマホのSiriみたいなAIアシスタントに、『近くにある美味しいイタリア料理のお店を教えて』と聞いてみたまえ。『イタリア料理ならXXXというお店があります。グルメサイトの評価は星3.5です』とか答えるだろう」
愛さん「ええ。よく使っていますよ」
天馬「では今度は『近くにある不味いイタリア料理のお店を教えて』と聞いてみたまえ。今度も『イタリア料理ならXXXというお店があります。グルメサイトの評価は星3.5です』と答えるだろうな」
愛さん「ほんとですか?なんで?」
天馬「美味しい店の検索なら数千万回くらいやっているだろうが、不味い店の検索は非常に少ないはずだ。だから質問文に出てくる単語列からだと、両方とも統計的には似た質問になってしまうからだ。このようなケースはいろいろあると思うが、手作業で例外処理として直すしかないだろうな」
愛さん「スマートスピーカーを当たり前のように使っていると、その回答をなんでも信じてしまいそうで怖いですね」
天馬「それとGoogleの機械翻訳も同じ原理だ。やはり統計的にみて最も適切と考えられる言葉を並べているだけだから、当然、間違えていることがある。翻訳の場合だと、誤訳があっても気がつかないから注意したまえ。
ちょっと前だったが、中国人が中国語を機械翻訳した英語表記の看板を出して商売をしていた。ところが、その英語はエラーメッセージだったんだ。英語が読めないから、そのままエラーメッセージの看板を描いてしまったようだ。これがSNSで拡散して逆に評判になったから『怪我の功名』だな。とにかく、人工知能の回答だからといって、鵜呑みにすることは危険なんだぞ」

伴くん「え~と、ということは自然言語処理研究の主流は、従来からあった単語と文法から意味を取り出そうとしたルールベースから、このニューラルネットワークの利用に移ったのですか?」
天馬「そうだとは言い切れない。確かにニューラルネットワーク・ディープラーニングの大波は、この自然言語処理に多大な影響を与えたし、大きな成果も得られた。だがCNNのようなディープラーニングが、画像処理の分野で他の手法を駆逐してしまったほどではない」
愛さん「どうしてですか?ルールベースではできなかった、素晴らしい成果がありましたよ」
天馬「画像や音声は、そのデータ自体にすべての情報が入っている、いわば『自己完結』したデータだ。しかし言語は何度も言うように、それ自体は『記号』でしかない。言葉が持つ意味、指し示す意味は、その記号自体にあるのではない。あくまでも人々が共有している知識側にあり、言葉はその知識を呼び起こすための『トリガー』でしかないのだ。まず、ここは分かるね?」
猿田くん「ちょっと待った!画像にはすべての情報が入っていると言ってますが、例えばピカソの絵画なんかだと、観る人によってかなり解釈に差がありますよ。キュビズムなんて、立体である人物を無理やり平面に展開して描いてる絵だから、面白いか気持ち悪いかは人によるな」
愛さん「絵画鑑賞になると、意味というよりそれは鑑賞者の感情ね。先生は、画像には必要とされる『情報』がすべて入っていると言ったのよ」
伴くん「ま~この場合、『情報』という言葉の中に、客観的事実と意味の両方を入れるかどうかの議論ですね」
天馬「ほー、なかなか良い議論だ。確かに、今まで画像認識とは単なる画像分類でしかない、と言ってきた。だから分類のために必要な『画像特徴量』は、画像データにすべて入っていると説明してきたのだ。これはその方が理解しやすいと思ったからだ。
しかし画像分類でも、面白い絵とつまらない絵に分けてくれ、というお題になると、また別の話になるな」
伴くん「そうなると、人の『価値判断』を客観的指標として取り出せるか、という話になりますね」
猿田くん「そんなのは、まず人が大量の絵画を面白い絵とつまらない絵に分け、それを教師データにしてCNNに学習させれば、絵画の特徴量が抽出できるはずですよ」
愛さん「それほど単純に分けられないわ。人によって絵画の価値判断はバラバラでしょ」
天馬「まあ待て。絵画だと美意識や価値判断の話も混ざってくるから話を戻そう。言葉の役割は、純粋に知識や概念を呼び起こすトリガーだという話だ」
伴くん「言われてみれば確かにそうですね。世界中にはたくさんの種類の言語がありますが、その指し示すモノや概念は、言葉が異なる他国の人々でも、共有や共感できますからね」
天馬「そうだろう。だからこそ、自然言語はやっかいなのだ。自然言語は、その離散的記号だけを解析しただけでは、本当の『意味』にはたどり着けない。なぜなら記号それ自体に『意味』は存在しないからだ」
猿田くん「じゃ、どうするんですか?」
天馬「まあ、それが今の研究課題になっている。意味とは何か?どうすれば、人間が当たり前のように使っている意味にたどり着けるかだな。まあ、ここからは哲学の分野に入ってくるので、定説があるわけでもなく証明も困難だ。それでも様々な考え方があるな」
伴くん「さっきコネクショニズムというアプローチがある、とおっしゃっていましたが、それですね」
天馬「そうだ。このテーマの初めのころに説明したコネクショニズムは、脳の下位層で処理している無意識領域を研究対象にしている。ディープラーニングは、脳の上位層にある知覚や運動などの意識領域だけを研究対象にしているな。この無意識レベルと意識レベルの両方を合わせることができれば、初めて『意味』が判明できると考えられている」
愛さん「どうしてですか?」
天馬「先ほども説明したが、人が持つ『常識』には、『知識』だけではなく実際の体験による『経験』や、人類共通の『感情』も入っているはずだ。感情の方は、言葉の内容よりその人が発する外形的特徴、例えば表情・声の大きさや抑揚・ジェスチャーなどがあるから、比較的判明しやすい。人間だって他人の感情は、これらを見たり感じることで判断しているだろう」
猿田くん「そうだけど、コンピューターは『身体性』による経験は積めませんよ」
天馬「まあ難しいな。でも人型ロボットなんかを利用すれば不可能ではないぞ。しかも一度体験したら、いくらでも転移学習できるから、コンピューターは人間より有利だな。いづれにしろ、今からの重要な研究テーマだ」

次は【エピローグ】

< < < < 目次 > > > >

MdN社「未来IT図解 これからのAIビジネス」を全国の書店で発売中

日本ディープラーニング協会推薦 創元社「やさしく知りたい先端科学シリーズ」

Amazonで「ディープラーニング入門書」を発売中

Amazonで「機械学習の入門書」を発売中

おしゃべりな人工知能講座

おしゃべりな人工知能講座

メッセンジャーで遊べる無料のチャットボット

面白い本を探している本好きの人にお薦めします

Amazonから紙の本でも発売中

ミステリィやエンターテイメント、恋愛小説に文芸小説など、確実に面白い本100冊を紹介するブックレビューです

PAGETOP
Copyright © TickTack World All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.