針金を変形してデータ点に合わせる多項式回帰だけではなく、ありとあらゆるデータ解析の手法に、このスパース推定を利用することができる。例えば「重回帰分析」(説明変数が2つ以上の分析)と呼ばれる手法に利用することが挙げられる。あるデータを説明するための要素には幾つも可能性がある。
年間の売り上げに一番貢献した要素はなんだったのか。「従業員の働き」「店長の活躍」「一種のブーム」――。あるいはある疾病を治療するために行った薬品の投与のうち、どれが効果的だったのか。他にも、いくつかある指導方針のなかから成績の向上に一番寄与しているものはどれか、などいくらでも応用可能な問題設定がある。「業績に重要な貢献をしている社員は誰なのか」という利用のされ方もあるかもしれない。
それはバネの問題であれば、バネの伸びはおもりの数以外にも影響するかどうかを調べるようなものである。評価軸を選択するという問題であり、複雑なデータに対して多くの軸を設け、なんとかしてデータをうまく解析してみようとするあまり何が重要だったのかが分からなくなるという問題をはらんでいる(図6)。しかしスパース推定を利用した場合はどうだろうか。本当にその評価軸は必要だったのか。監督に聞いてみたらどうだろう。
図6:日々の売り上げや業績を上げる要因は
軟判定しきい値関数による解析で注意したいのは、得られたデータに対して、忠実かつ少数のパラメータで説明をしようという観点に立った解析に過ぎず、それが真実の姿なのかどうかはある程度コンセンサスを別途得る必要がある点だ。データと対話をする、データを読み解くためのひとつのツールとして考えてほしい。
誰でも感じ取れる時代の転換点
筆者は物理学科で大学の学部時代を過ごした。そのときに一番労力を割いたのは実験レポートを毎週書き上げることだった。しかしとりわけ苦痛だったのは、そのレポートの量ではなく、得られた実験データに当てはまる関数形を指定された上でフィッティングをすることであった。
なぜその関数形になるのか。誰も疑問に思わず、指示をして、そしてその指示に従って漫然とフィッティングをしていたのだ。スパース推定というちょっとした武器を持つことで、何も素性や法則性も分からないデータを目の当たりにして、真実を浮かび上がらせることができる技術が利用できるのであれば、どんなにあの苦痛な実験レポートの考察が楽しくできたことだろう。
時期外れではあるが、子供の夏休みの宿題で、何かの観察実験、例えば朝顔の成長曲線の関数形がどんな形になるのか一緒に解析してみてはどうだろうか。植物学の常識を覆す結果が出たりはしないだろうか。身近なデータを解析して、これまでに知られていた結果を再現、またはひっくり返す結論を導くのではないだろうか。
そう思うと、日々の通勤電車の中ででも、「こんなことがわかるのでは」と子供のときのような興奮を覚えないだろうか。世界の見方が変わる――。それがスパースモデリングの威力である。
- 大関 真之(おおぜき まさゆき) 京都大学大学院情報学研究科システム科学専攻助教
- 博士(理学)。専門分野は物理学、特に統計力学と量子力学、そして機械学習。2010年より現職。独自の視点で機械学習のユニークな利用法や量子アニーリング形式を始めとする新規計算技術の研究に従事。分かりやすい講演と語り口に定評があり、科学技術を独特の表現で世に伝える。