Paco Nathan氏は、可能性を象徴する伝説の生物であるユニコーンのような人物だ。これは陳腐な表現だが、ホワイトハウスの高官やMicrosoftの製品マネージャーと人工知能(AI)について議論を交わし、ビッグデータのパイプラインの専門家でもあり、O'Reilly MediaのLearning GroupディレクターとしてStrataのようなカンファレンスを仕切ってみせる人物に対する形容としては、当を得たものだと言えるだろう。
AI、データサイエンス、ソフトウェア工学の分野で何十年も活躍してきたNathan氏は、それらすべてに関われるだけの多様な経歴を持っており、現場での経験も豊富で、大きなビジョンを持っている。ここでの議論のきっかけになったのは、同氏が「Strata EU」で示した、「Human in the Loop」(HITL、人間参加型)と呼ばれる機械学習のフレームワークだ。
Human In the Loop
HITLは、機械学習を効率的でアプローチしやいものにする、複数の仕組みを組み合わせたアプローチだ。Nathan氏は、HITLはデザインパターンの1つであり、複数の技術的なアプローチと管理の手法を組み合わせたものだと説明している。
HITLでは、よく使われる機械学習の手法である「教師あり学習」と「教師なし学習」を組み合わせて利用する。教師あり学習では、入力されるデータに対する予測の正確さを向上させるために、機械学習の専門家がラベルをつけたデータセットを使って、パラメータを調整しながらアルゴリズムのトレーニングを行う。一方、教師なし学習では、大量のデータをアルゴリズムに投入して、そこに存在する何らかの構造を明らかにするという考え方をとっている。
HITLで用いるのは、それほど一般的ではない「半教師あり学習」と呼ばれる手法の特別なケースである、「能動学習」という手法だ。半教師あり学習の考え方では、複数の機械学習のモデルを組み合わせて、各入力データにどのようなラベル付けを行うかを「投票」させる。各モデルの意見が同じであれば、その一致した意見が採用される(通常は自動的な処理として行われる)。
モデルの意見が分かれたり、信頼度が低い場合には、難しいケースを扱うことができる人間の専門家に判断を任せる。その後、専門家の選択がシステムにフィードバックされ、機械学習モデルのトレーニングに使用される。
Nathan氏によれば、能動学習はラベルのない安価なデータが大量にある場合に適しているという。つまりデータが豊富で、主なコストがラベル付け作業そのものである場合だ。能動学習が重要なのは、大手テクノロジ企業以外のほとんどの組織では、そのような状況が極めて一般的だからだ。
しかし、テクノロジだけでは十分ではない。中規模の企業でも機械学習やAI、オートメーションを利用できるようにする現実的な方法には、どんなものが考えられるだろうか。