いぬおさんのおもしろ数学実験室

おいしい紅茶でも飲みながら数学、物理、工学、プログラミング、そして読書を楽しみましょう

工学

画像認識は難しいのか

このブログで画像認識について何度も書いています。そもそも「画像認識」という言葉ですが、色々な意味があります。パソコンに写真を見せて「これは茶碗」「これは橋」などのように答えさせることを考えましょう。同じ橋を見せても「瀬戸大橋」のように答え…

立体の復元、結果報告(泣)

立体の復元、一応ここまでで書いた理屈は全てプログラムで試してみました。しかし、結果は×でした……。結構時間かけたのに……。写真3枚から内部パラメータ行列Aを求めようとするとき、次の式を使います。 ブログではBを(測定によって)求めてからこの式を使…

写真からチェスボードを使って立体を復元(14)(手順のまとめ)

ここまでチェスボードを使ってカメラの校正をして写っている立体を復元する方法を説明してきました。長かったですし、毎回「なるほど!」と納得していたつもりでも、いざ「さあプログラミング!」というとき「あれ、何をすればいいんだっけ?」と必ずなりま…

写真からチェスボードを使って立体を復元(13)(2枚の写真から空間内の点の座標を求める)

ここまでで3枚の写真からカメラの内部パラメータAを求め、基礎行列Fを求め、基本行列Eを求め、回転行列R、平行移動ベクトルtを求めました。ここからは3枚のうちの2枚を使えば立体の頂点などの(空間内の)座標を計算できます。この部分を説明します。 …

写真からチェスボードを使って立体を復元(12)(基礎行列Fから回転行列R、平行移動ベクトルtを求める(2))

続きです。今回まででR、tが求まります。全体、『写真から作る3次元CG』に従っています。あちこち「あれ?」と躓いたところがあり、後で読んですぐ理解できるよう、かなり詳しく説明をつけておきました。1回引っかかったところは次回も必ず引っかかるもので…

写真からチェスボードを使って立体を復元(11)(基礎行列Fから回転行列R、平行移動ベクトルtを求める(1))

前回の記事でFが求まります。次に、このFからE、R、tを求めます。やはり結構大変です。 次回、Cを最小にして回転行列、平行移動のベクトルを実際に求めます。今回の記事は何回も紹介している『写真から作る3次元CG』によっています。 3次元コンピュータビジ…

写真からチェスボードを使って立体を復元(10)(8点法で2枚の写真から基礎行列Fを求める)

Fは成分が9個ですから、「9点法」が正しいのでは?……と思うかも知れませんが、エピポーラ方程式を見るとFの成分が全部2倍になっていても成立します。いろいろなテキストでこういった事情を「Fのスケールは任意」と表現しています。例えばFの右下の成分を1に…

写真からチェスボードを使って立体を復元(9)(座標変換について解説!)

ここで、ぼくがこの分野を勉強し始めて最も悩んだことのひとつ、座標変換について整理しておきます。式が明らかになっていても、落ち着いて考えると「このmはどこの座標で測ったものなんだっけ?」とか、「どちらの座標軸を動かしたと考えている?」とか、…

写真からチェスボードを使って立体を復元(8)(全体の流れを確認)

ここで少し休憩。写真からチェスボードを使って立体を復元(1)~(7)で一応、チェスボードの映り込んだ写真3枚から撮影に使ったカメラの内部パラメータ行列Aを求める方法を説明しました。初めてだと特に、「理屈は分かったけれど、じゃあ具体的に何をどう…

写真からチェスボードを使って立体を復元(7)

いよいよ次の連立方程式を解きます。 以上で定数倍の定数λも含め、変数が全て求まりました。参考にしているテキスト『写真から作る3次元CG』では結果は載っていますが、計算の過程は書いてありません。結構大変でした。なお、eがこの記事の結果とは一部違…

写真からチェスボードを使って立体を復元(6)

続きです。カメラの内部パラメータ行列、Aを求めます。Aの成分は、下の通り添え字がついているものがあります。意味が分かりやすいからですが、単純に連立方程式などを解くときには却って見づらくなります。そこでこれらはアルファベット1文字で表すことに…

写真からチェスボードを使って立体を復元(5)

続きです。やや分かりにくい式変形が含まれます。ノートに書いて理解してください! 次回以降ではこうして求めたBからAを求めます。参考にしているテキスト(『写真から作る3次元CG』)ではこの計算は省略されています。ここも丁寧に書きます。 追記 202…

写真からチェスボードを使って立体を復元(4)

続きです。自分があとで見て分かるよう、かなり丁寧に書いています。相変わらず手書きですがご勘弁を……! 次回以降で具体的にAを求めます。個人的には意外というか、「なぜこんなに大変なの?」という気持ちです。アングルを変えて何枚か写真を撮れば、チェ…

写真からチェスボードを使って立体を復元(3)

続きです。写真上の点とチェスボード上の点の対応からHを求めます。 このあと、順にHを求め、Aを求め、Rとtを求めます。

写真からチェスボードを使って立体を復元(2)

まず基本。以下で、チェスボード上の点が写真上ではどのような座標に対応するのか、計算するための式を求めます。 Hは3行3列の行列です。u, v, u', v' の対応からHの成分が分かれば先へ進めます。 今回はここまで。カメラ座標系(の座標軸)を、回転R(空間…

写真からチェスボードを使って立体を復元(1)

現在、また「何枚かの写真に写った立体をPCで再現する」というテーマで理論の整備、実験をしています。具体的には、立体の写真(建物の写真、家具の写真、……)を何枚かPCに渡して、PC内でそれらの立体の頂点の座標を計算します。そうすればPC内でそ…

書籍『技術者のための線形代数学 大学の基礎数学を本気で学ぶ』紹介

今、「写真から3次元の立体を復元する」というテーマで勉強しています。線形代数が必要な分野で、こちらも並行して勉強し直しています。行列のランク、対称行列の対角化、特異値分解、……といったことが分かっていないと議論について行けません。今回紹介する…

液晶タブレット買いました。その他、近況報告

久しぶりのブログ更新です。新年度でドタバタしていました。GW以降は写真から3次元復元する実験に入っています。前、条件を簡単にして2枚の写真から立体を復元する実験をやっており、結果も出しています。 www.omoshiro-suugaku.com 今回は、前には敬遠し…

バッチ正規化を入れて数字認識の実験をした結果

バッチ正規化の実験(勾配確認)がうまくいったので、実際にMNIST(数字認識の実験のためのデータセット)を使って認識率がどうなるか試してみました。なお、バッチ正規化では正規化(標準化)の式として前回の記事の通りのもの(γ・(x-μ)/s+β)を用い…

バッチ正規化の逆伝播の式を導く

バッチ正規化の話です。前回書いたとおり、画像認識のネットワークでデータを処理するとき、「各層で、特定のいくつかのユニットだけが値が大きくなる」という現象が起こります(「アクティべーションの分布が偏る」)。出力層でも「2」ばかりが出力されたり…

書籍『ゼロから作るDeep Learning』紹介

まだこのブログで紹介していなかった素晴らしい本です。『ゼロから作るDeep Learning』です。 ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装 作者:斎藤 康毅 オライリージャパン Amazon 何回か話題にしている数字認識の実験のセッ…

画像認識でトラブった話。出力層のユニットの値があまり変化しない

(Pythonのライブラリなどを一切使わない)画像認識の実験の中間報告です。 www.omoshiro-suugaku.com CIFAR-10を使って画像認識の実験をしていましたが、途中までは快調だったんですがつまずきました。いろいろがんばって光明が見えたので報告です。1人で書…

雑談。CIFAR-10で画像認識の中間報告、C#で出したバグ

しばらくぶりの更新です。画像のデータセット、CIFAR-10を使って画像認識の実験(の準備)中です。 www.omoshiro-suugaku.com 前から凄く興味があって、とにかくやってみたかったのです。学校も冬休みに入り、時間もかなり自由になったので進んでいます。何…

書籍『ディジタル画像処理』紹介

重いし大きいし値段も高めなので、買うとき「うーん……、どうしよう」と考えました。 ディジタル画像処理 [改訂第二版] 公益財団法人画像情報教育振興協会(CG-ARTS協会) Amazon 索引まで含めて479ページ。読み終わってからレビュー、としていたら何年もかか…

画像認識の実験始め。CIFAR-10使います

CIFAR-10というデータセットがあります。前、MNIST(エムニスト)というデータセットを使ったことがあります。これは0から9までの数字認識の実験などのための画像のセットで、何年か前にC#でプログラムを書いて数字認識を試しました。CIFAR-10は飛行機、自…

ソフトマックス関数を微分する

すみません、この記事は周辺の知識がないと読みづらいと思います。機械学習、深層学習にソフトマックス関数というのが出てきます。今回はこれを微分したらどうなるか、という話です。ソフトマックス関数は次の通り。 ネットワークの出力層でユニットの値が …

書籍『ディープラーニングがわかる数学入門』紹介

ここのところ、機械学習の勉強をしています。ニューラルネットワーク、ディープラーニングも出てきます。これについては前、調べたことがあって、そのとき自分で数字認識まで実験しています。 www.omoshiro-suugaku.com www.omoshiro-suugaku.com 初めてだっ…

書籍紹介『[改訂新版]ITエンジニアのための機械学習理論入門』

パターン認識の勉強を始めて、関係する「機械学習」について「そういえばこの辺、ちゃんと勉強したことなかったな……」と思い当たり、とりあえず何か読んでおこうか、と選んだ本です。 [改訂新版]ITエンジニアのための機械学習理論入門 作者:中井 悦司 技術評…

スマホのカメラの「焦点距離」。誰か教えて……

スマホに付いているカメラの話です。多分「オートフォーカス」というやつですよね? つまり、ピントが合っているとかいないとか気にしなくてもシャッターを押すだけで写真が撮れます。それとは別に、被写体が映っているとき、画面をタップするとそこにピタリ…

勉強のための本を選ぶときの決め手

よさそうな本だけれど、買おうか買うまいか、それとも古本にしちゃおうか、借りて済まそうか……。迷うことがあります。あるいは近い内容の本が2冊あって、どちらにしたらよいか決めかねているとか。 ぼくはまず目次をザッと見て前書き、後書きを読みます。勉…