機械学習と読書の世界

AI関連用語集

5.AI関連用語集

一般的にAI(人工知能)と呼ばれている機械学習やニューラルネットワーク、深層学習に関する技術は、未だに発展を続けています。このため、そこで用いられている言葉は確定されておらず、同じ概念を異なる単語で表現する場合も多々あります。特に日本語の場合は、英訳された日本語と英単語が混在しているため混乱しているのが実情です。この「AI用語集」は、私が集めた備忘録ですので、学術的には不正確であることをご了解ください。

5-1.機械学習(Machine Learning)/統計学関連用語
5-2.自然言語処理(NLP)関連
5-3.深層学習(Deep Learning)/Neural Network 関連
【アルゴリズム】【画像認識】【ニューラルネットワーク】
5-4.最新用語・アルゴリズム

5-1.機械学習(Machine Learning)/統計学関連用語
回帰分析(regression analysis):2組のデータの傾向を分析するために行われる統計学の手法。相関関係や因果関係があると思われる2つの変数のうち、一方の変数を用いて他方の将来的な値を予測する。
・重回帰分析(multiple regression analysis):回帰分析の独立変数が複数になったもの。適切な変数を複数選択することで、計算しやすく誤差の少ない予測式を作ることができる。
・ロジスティック回帰(logistic regression):回帰分析が量的変数を予測するのに対して、ロジスティック回帰は発生確率を予測する手法。基本的な考え方は線形回帰と同じだが、予測結果が 0 から 1 の間を取るように、数式やその前提に改良が加えられている。
・2クラス分類(binary classification):与えられたデータを、分類器を用いて適切な2種類の「クラス」に分類する、教師ありの機械学習の手法。
・多クラス分類(multinomial classification):3種類以上にクラス分類する教師ありの機械学習の手法。
・1対多分類器(one-vs.-rest classifier):クラスごとに判別式を用意し、対象データにすべての式を適用、最も高い確率のクラスに割り当てるクラス分類の方法。
・1対1分類器(one-vs.-one classifier):全個のクラスから2個を判別する式を、クラスの選び方分用意し、データをすべて判別式に適用し、結果の多数決でクラスを決定するクラス分類の方法。
・単純(ナイーブ)ベイズ分類器(native bayes classifier):ベイズの定理を用いて、条件付確率を分類器として使う機械学習におけるクラス分類の手法。
サポートベクターマシン(support vector machine):データを可能な限り広いマージンで分離する境界を探し、明確に分離できない場合、最善の境界を検出するクラス分類の方法。境界線を直線で分離する場合と3次元以上の曲面で分離する方法がある。
・決定木(decision tree):ツリー構造でクラス分類する手法。
・ランダムフォレスト(random forest):多くの決定木を生成して多数決をとる方法。
・バギング(bagging):教師データからランダムにデータをサンプリングし、複数の教師データで弱分類器を作成。異なる弱分類器の結果を、多数決でクラス分類する方法。
・ブースティング(boosting):同じ学習用データを何度も用いて、全データに重み付けして弱分類器を更新。各々の弱分類器の正解率に応じた多数決でクラス分類する方法。
・Decision Forest:弱分類器に決定木を用いたバギング。
・Boosted Decision Tree:決定木をブースティングで改良した手法。簡単に高い精度を実現できるが、メモリが大量に必要とする。
クラスタリング:データの類似性をもとに、自動的にグループ分けする教師なし機械学習。
・k-means法:対象データを散布図にプロットし、データ間の距離(ユークリッド距離)が近いデータ同士を同じグループにまとめる手法。
・協調フィルタリング(collaborative filtering):評点(rating/preference)に基づいて、利用者の嗜好を解析し、商品をお薦めするレコメンドの方法。通常、他の利用者の評点も併用する。
・アイテムベースレコメンド:対象者が高い評点を与えた類似商品を候補とするレコメンドの方法。
・ユーザーベースレコメンド:対象者と好みの似た利用者を複数探し出し、利用者の多くが高い評点を与えた商品のうち、対象者が未購入を候補とするレコメンドの方法。
・コールドスタート問題(cold-start problem):レコメンドする際に、新商品や初来訪者には評点がないのでお薦めができない問題のこと。
・MatchBox:利用者同士、商品同士の類似性を用いて、コールドスタート問題を改良し、お薦め商品を推測するレコメンドの方法。
・NDCG(Normalized Discounted Cumulative Gain):レコメンデーションの評価指標で、評点の予測値を降順に並べ、下位にマイナスの重み付けし、評点を足した点数(DCG)を、正解値のDCGで割った値。1に近いほどよい。
・MAE (Mean Absolute Error):レコメンデーションの評価指標で、平均絶対誤差。値が小さいほどよい。
・RMSE (Root Mean Squared Error):レコメンデーションの評価指標で、二乗平均平方根誤差。値が小さいほどよい。
・ホールドアウト法:教師データを、あらかじめ学習用と評価用に7対3などに分割しておき、学習させたモデルを評価データで評価して、モデルの精度をテストする方法。
・交差検証:教師データをK個に等分し、学習用と評価用として評価、何回も予測モデルを作成、評価する方法。
ユークリッド距離(euclidean distance):データ間の距離。値が小さいほどデータの類似度が高い。
・コサイン類似度(cosine measure similarity):データをベクトル表現した場合の角度の近さ、値が大きいほどデータの類似度が高い。
過学習(over-fitting):回帰分析などで、変数を増やしすぎると、不自然に大きな編回帰係数となってしまう症状。教師データが膨大にあれば問題はない。ニューラルネットワークでは、教師データにモデルが過度に依存してしまい汎用性が失われること。

  Amazonで発売中

よくわかるディープラーニングの仕組み
ディープラーニングの動作原理を、CNNからRNN,LSTMまで図解して解説します。学生や忙しいビジネスマンに最適な深層学習入門書です。 (電子書籍版780円)

  Amazonで発売中

ビジネスで使う機械学習
ビジネスマンのための機械学習入門書です。ビジネスで機械学習を活用するためのノウハウが書いてあります。 (PCやタブレットで読める電子書籍版780円)

面白い本を探している本好きの人にお薦めします

ぜひ読んでもらいたい本
ミステリィやエンターテイメント、恋愛小説に文芸小説など、確実に面白い本100冊を紹介するブックレビュー (スマホやタブレット、パソコンでも読める電子書籍版:480円)
PAGETOP
Copyright © TickTack World All Rights Reserved.
Powered by WordPress & BizVektor Theme by Vektor,Inc. technology.