バッチ正規化の逆伝播の式を導く - いぬおさんのおもしろ数学実験室

バッチ正規化の話です。前回書いたとおり、画像認識のネットワークでデータを処理するとき、「各層で、特定のいくつかのユニットだけが値が大きくなる」という現象が起こります（「アクティべーションの分布が偏る」）。出力層でも「2」ばかりが出力されたりするのです。各層にはたくさんのユニットがあるのですから、もっと均等になるのが望ましそうです。そこで、ある層で無理矢理ユニットの値を平均と分散を使って標準化（正規化）し、データの偏りを減らしてやるのです。これをバッチ正規化と言います。逆伝播の仕組みを入れるのが面倒になりますが、今回はその式を導きます。

ぼくはC#で実装し、ユニットの誤差を偏微分の定義に基づいた計算と、これから示す逆伝播の理屈から求め、ほぼ一致することを確認しました（「勾配確認」と言っていいか分かりませんが、ここではそう呼びましょう）。以下に示すとおり、式自体は手間をかければ求まるのですが、大変だったのは実装です。ぼくがハマったのはバッチ正規化を入れた場合の誤差の扱いでした。今考えれば当たり前なのですがバッチ内のデータすべての誤差の総和を小さくする、と考えなければならなかったのでした。式が間違っているのか、式が正しくてもコーディングがまずいのかと考えて、もう10回くらいずつ丁寧に点検しました。間違いなさそうなのに勾配確認では一致しない。数日間、悩みに悩んで寝ようとしているときにボンヤリ考えていて、「あっ！！」と気がつきました。これもよい経験です。あとは実際にMNISTやCIFAR-10で認識率がどこまでいくか試すことになります。

ミニバッチのサイズをNとし、0≦ｎ≦Nとします。ｎはミニバッチ内のデータ（サンプル）の番号です。ｎ番のデータをネットワークに流したとき、第L層のｊ番目のユニットの値を次のように表します。