スモールデータから知見を見出す「スパースモデリング」

画像や音声、文章にも応用可能--実は身近なスパースモデリング - (page 2)

大関真之

2016-04-06 07:00

「足し算」がもたらすスパース性

　重要な要素を取り出すために、実践編では「軟判定しきい値関数」というものを利用することを紹介した。この概念は慣れ親しまない読者にとっては面を食ったのは執筆しているこちらとしても想像に難くない。

　この顔の画像の場合については、スパース性の現れ方が少し異なる。いわばもう1つのスパース性のあぶり出し方であり、読者にとっても想像しやすいものであろう。顔の話に寄せたまま、1つ1つひも解いて行こう。

　顔の絵を描くということを想像してもらいたい。そのときに「ペンだけを持って描く場合」と、「鉛筆と消しゴムを持って描く場合」を考えてもらいたい。まず白紙に顔の輪郭から目を描き、鼻を、口をと進んで行く。その時に行っているのは、「目」と「鼻」、そして「口」のパーツを足し算しているということに相当する。しかし思ったような表現にならなかったら、消しゴムで消しては細かく書き入れてということを繰り返す。これは鉛筆と消しゴムによる足し算と引き算の繰り返しというわけだ。

　どちらの方が手数は少ないだろうか。圧倒的にペンによる一筆入魂の方法だ。もちろんそのためには失敗しない精度良い描き手が必要となるが。それは機械にやってもらえば良いだろう。実は先述した顔のパーツ分解の研究では、パーツの組み合わせは「足し算」のみを許すという条件で行っている。

　もしも「足し算」、「引き算」を繰り返して良いとすると、顔のパーツはもっと細分化されて細かいパーツが現れるようになる。この条件が重要である。「非負値制約」と専門家たちは呼んでいる。技術的な部分に興味を持った読者は、このキーワードでさらに勉強してみると良いだろう。

　この足し算だけで顔を表現すると制限したとき、どんなパーツで顔を表現していけば、万人の顔を満足のいく精度で書き示すことができるか。そのために必要なパーツを探せというのが機械に命じたミッションだったというわけである。

　初等教育の学校で、あるいは個人的な趣味などで参加した合唱コンクール。その本番間近、厳しい指揮者に怒られながらも合唱の練習をした経験がある方は多いだろう。そのときによくもまあ、音程を外した歌い手を名指しで見つけることができるものだと感心したことはないだろうか。多くの人間がいる中で、ある特定の人間の声を人間は聞き分けたりすることもできる。

　ここで話題となっている音というものも、重ね合わさって複雑な音色を奏でる。いわば「足し算」、さまざまな音が組み合わさっているわけだ。顔の画像のときと同じように、音についても「足し算」のみで組み合わさっている性質を利用することで、その代表的な音のパーツへ分解できる。その音のパーツを分離することで音声処理をするために、音自体を消すことも、変調することで音程を変えるなど自由自在になっているというわけだ。

　おそらく人間は無意識に、経験的に音や画像の代表的なパーツを獲得しており、それらの組み合わせで世の中が複雑にできていることを知っているのだろう。冷静に考えると、人間というのは、目の前にある超高画質の画像データ（しかも動画！）、常に耳に届く大量の音声データを認識することのできるビッグデータ解析機器なのだ。感覚器官に届いたデータを処理するためにいくつかのパーツの組み合わせであるという性質を利用して、瞬時に読み解くことにより、理解しているのだろうと感じられる。本当かどうかはまだ分からないが、そう信じても良さそうだ。