なんでも分けようクラス分類
天馬「次も教師あり学習だ。マリリン、クラス分類の図だ」
天馬「クラス分類(Classification)とは、与えられたデータを適切なクラスに分類する、教師ありの機械学習だ。例えば、人の写真を男と女の2種類に分ける場合は、2クラス分類とか二項分類と呼ぶ。一人、二人、三人以上のように複数に分類する場合には、多クラス分類と呼んでいる。
図の左は、僕の大学でゴルフコンペが開催されるか、予測するアルゴリズムを例にしている。この場合、開催するかしないかだから2クラス分類となる。ここで使われている決定木とは、木構造でクラス分類を行うシンプルなアルゴリズムだ。この決定木の特徴は、人が分類モデルを視覚的に理解できることにある。学習速度は速いが、問題によっては精度があまりよくないことがある」
愛さん「あら、先生はゴルフなさるんですね。見に行こうかしら」
猿田くん「ハンデいくつですか?」
天馬「茶化すな。これは、あくまで例題にすぎない。右のロジスティック回帰は、過去のデータをもとに、あるクラスに該当する確率を予測するアルゴリズムだ。予測した確率に対して、閾値を設定し、それ以上か未満でクラスを割り当てる、統計分類では一般的な手法だ。
この例題にある迷惑メール判定だと、使われた文章の特徴が過去の迷惑メールの特徴に近いか計算して、迷惑メールか普通のメールかの2種類に分けるので、2クラス分類だ。迷惑メールの判定閾値を上げると、誤判定は減るが判定漏れが増えるトレードオフの関係にあるな。このロジスティック回帰の判別式をクラス毎に用意すると、多クラス分類が可能となる」
伴くん「先生、数値なら計算可能ですが、文章同士の特徴が近いという計算ができるのですか?」
天馬「文章や単語同士の距離も、実は計算できるのだ。ここは自然言語処理の講義で説明しよう」