スモールデータから知見を見出す「スパースモデリング」

画像や音声、文章にも応用可能--実は身近なスパースモデリング - (page 3)

大関真之

2016-04-06 07:00

文章の内容を噛み砕く

　連載も4回目になり、感覚的にスパース性の利点や性質が頭の中に出来上がってきているのではないだろうか。そうなってくると、もしもこれから読者の目の前にスパース性に関係する文章が登場したら、

　「ああ、あのときに言っていたあれだ」

　「知っているよ、スパース性でしょう？」

　「そうそう軟判定しきい値関数とか使うやつだ！」

　と声を上げているかもしれない。これもよくよく考えてみると、人間の認識方法を示している例ではないだろうか。最初は全く知らないことについては、理解は難しいのだ。理解するための下地部分、パーツがないからだ。そのパーツをいくつか拾った後では、理解することはたやすくなっているというのは経験上、よくあることだろう。

　「理解しやすいかどうか」という判定をたびたび受けるものは、文章が一番ではないだろうか。実はこの文章の構造や背景を解析する技術も急速に成長している。英語であればスペースで区切られた文章要素ごとに区切ることで単語を抽出することができる。日本語は単語を抽出するためには一工夫がいるが、「形態素解析」と呼ばれる方法で実現できる。

　さてさて、こうして並べられた単語の羅列。これは一体、何を意味しているのだろうか。これが文章を理解する第一歩であろう。もちろん人間は前後関係や単語そのものの意味等色々な情報から理解をしているわけだが、もっとも素朴に何のことを言っているのかという解析をすることを考えてみよう。

　このときは、たくさんの「トピック」からなる文章を先に学習しておくと良いだろう。「野球」の話か、「サッカー」の話かを区別するためには、事前にそういう話題、ある「トピック」が出る場合にはどんな単語がでるのかということを知らなければならない。スポーツの種目だけではなく、その「ルール」について語っているのか、「面白さ」について語っているのか、「歴史」について語っているのか。そうここでも話題の「足し算」が関わっていることに気付くだろう。

　話題は「足し算」により、豊富かつ複雑になっていると考えるのはそれなりに説得力があるだろう。もちろん人間の話し言葉、書き言葉には、分かりやすさのためにたとえ話があるので、余計な「足し算」も含まれているが、その余計な話が余計だと分かるのは、ごくわずかにその話題が「足し算」されているからで、対処するのは難しくないだろう。

　仮にこの文章を解析したら、ほとんどは「お絵描き」の話であり、「音声」の話であり、最後は「野球」がちょっとで終わっていると解析されるだろう。しかしほとんどのところで「スパース性」というキーワードが横たわっているので、「データ解析手法」の話題であることは分かる。非常に多くの単語からなる文章を、ごく少数のトピックで表現するのだから、これも「スパース性」がひょっこり現れているというわけだ。