それは2012年のことだった。世界でも特に有名な研究機関が集まって、画像認識のコンペティションが行なわれた。そこでは、ある画像に写っている物が果たして何なのかをコンピュータが自動的にピタリと当てる課題が出された。つまり、画像に写っている物をコンピュータ自らがしっかりと認識できるかどうかが問われたのだ。
大差をつけて圧勝
コンペティションでは、「画像認識を間違えてしまうというエラー率」が一番低いところがトップになる。
このコンペティションにおいて、カナダのトロント大学が開発したスーパービジョンが、見事にトップとなった。
まったく下馬評にもあがっていなかった勝利であった。なぜ、トロント大学は他を圧倒することができたのか。
画像認識という分野で機械学習を用いることは当然なのだが、その機械学習において肝心な特徴量の設計は人間が行なうのが通常であった。その特徴量の設計をどうするかによってエラー率は変わってくるので、そこが各研究機関の技術を競い合うポイントであったと言える。
2012年のときは、エラー率が26%台の争いとなっていた。しかし、トロント大学は他の研究機関とは10ポイント以上の差を付けて、エラー率が15%台という成績だった。なぜ、これほどの差を付けることができたのか。(ページ2に続く)