パターン認識の勉強を始めて、関係する「機械学習」について「そういえばこの辺、ちゃんと勉強したことなかったな……」と思い当たり、とりあえず何か読んでおこうか、と選んだ本です。
目次は以下の通り。
1.1 ビジネスにおけるデータサイエンスの役割
1.2 機械学習アルゴリズムの分類
1.3 本書で使用する例題
1.4 サンプルコード実行環境の準備
第2章 最小二乗法:機械学習理論の第一歩
2.1 多項式近似と最小二乗法による推定
2.2 オーバーフィッティングの検出
2.3 付録 ― ヘッセ行列の性質
第3章 最尤推定法:確率を用いた推定理論
3.1 確率モデルの利用
3.2 単純化した例による解説
3.3 付録 ― 標本平均/標本分散の一致性と不偏性
第4章 パーセプトロン:分類アルゴリズムの基礎
4.1 確率的勾配降下法のアルゴリズム
4.2 パーセプトロンの幾何学的な解釈
第5章 ロジスティック回帰とROC 曲線:分類アルゴリズムの評価方法
5.1 分類問題への最尤推定法の応用
5.2 ROC 曲線による分類アルゴリズムの評価
5.3 付録 ― IRLS法の導出
第6章 k平均法:教師なし学習モデルの基礎
6.1 k平均法によるクラスタリングと応用例
6.2 怠惰学習モデルとしてのk近傍法
第7章 EMアルゴリズム:最尤推定法による教師なし学習
7.1 ベルヌーイ分布を用いた最尤推定法
7.2 混合分布を用いた最尤推定法
第8章 ベイズ推定:データを元に「確信」を高める手法
8.1 ベイズ推定モデルとベイズの定理
8.2 ベイズ推定の回帰分析への応用
各章で解説されている理論を、PCで実験して確認できるようになっています。ぼくはとにかく先を知りたくて、実験は飛ばして第5章まで読みました。それでも理屈の理解には問題ありませんでした。著者の先生は「機械学習の世界で定番の教科書『パターン認識と機械学習 上/下』を読破するための入門書として活用していただけるでしょう」といったことを書いています。
最初に書いたように、ぼくは機械学習についてまとまった勉強はしたことがありません。それでも、これまでに勉強したことと部分的に結構近い内容(勾配降下法や最小2乗法を一般逆行列で表すなど)も一部この本に含まれており、それも理由のひとつかも知れませんが数式の意味や式変形など、極めて分かりやすかったです。数学的なごまかしは(ぼくが読んだ部分については)ありません。なお大学1年で習うくらいの簡単な行列の知識はあった方が分かりやすいと思ったところはありました(最小2乗法を行列を用いて表す部分など)。また、そもそも機械学習がどんなものなのか、何に使えるのかあまり知らなかったので、その辺を具体的に書いてある第1章も勉強になりました。
通して読んでみて、機械学習ではこんな場面でこんな風にこういうロジックが出てくるんだ、と理解できた気がします。論旨も明快ですし、こんな感じの本が増えると勉強しやすいんだろう、と思いました。
多分「この本を読めば機械学習がいきなり使えるようになる」というものでもないでしょうが、こうした数学的な理屈をきちんと勉強しないとまずいと思います。今や機械学習させるなど、あちこちにあるライブラリを使えばすぐでしょう。でもそれを何万回繰り返しても機械学習が分かったことにはなりません。状況によってはそれでよいこともあるのでしょうが、ぼくはそれではつまらないと思います。理屈が分かった上でライブラリを使う。これが本来あるべき姿だという気がします。