いぬおさんのおもしろ数学実験室

おいしい紅茶でも飲みながら数学、物理、工学、プログラミング、そして読書を楽しみましょう

画像認識は難しいのか

このブログで画像認識について何度も書いています。そもそも「画像認識」という言葉ですが、色々な意味があります。パソコンに写真を見せて「これは茶碗」「これは橋」などのように答えさせることを考えましょう。同じ橋を見せても「瀬戸大橋」のように答えさせたかったり、砂浜を見せて「ワイキキのビーチ」という返事が欲しいときもあるはずです。こちらは単純に「橋」を見分けるだけでなく瀬戸大橋の特徴をパソコンが知っていることが必要です。いかにも大変そうです。もっとずっと単純な数字の認識(これも画像認識)も、簡単ではありません。ぼくたちは数字を見て、そうとう汚く書かれていても「4」などと読めます。人によって線と線の間が離れていたり、同じ7でも外国には斜めの線に横棒をつけ加えたりする人もいます。人間は読めるけれど、パソコンにとってはやっかいでしょう。1960年代、「人工知能の父」と呼ばれたミンスキー先生はMITの学生に「コンピュータに机の上を見せて、置いてある物のリストを表示させよ」という夏休みの課題を出したそうです(昔読んだ本の記憶で書いています。少し違っているかも)。多分、できた学生はいなかったでしょう。当時のコンピュータの能力や、裏付けになる(物体認識の)理論の発展の具合から考えても無理そうです。今なら個人レベルでもある程度可能ですが、しかしそれは「易しい」ということではありません。

考えてみてください。パソコンに渡すのは写真です。と言っても、パソコンはぼくたちのように画像をそのまま見るわけではありません。パソコンから見れば写真は1列に並んだ数値の山なのです。32×32ドットの(小さな)写真は1024ドットの明るさを示す数値の単純な列に過ぎません。画像認識とは、目をつぶって 「座標が(5,8)の点は129の明るさ、(5,9)の点は……」 と聞いて 「茶碗」 などと答えることなのです。……にもかかわらず、今やよい精度で「茶碗」と判断できるというのは凄いことだと思います。