適切な人材を組み合わせた後は、そこにプロセスを投入する番がやって来る。AIとMLを活用しようとしているのであれば既に、アナリティクスを用いた作業経験があるはずだ。アナリティクス上の問題を洗い出し、そこでの答えを運用に組み込めるプロセスが存在していることを期待したいところだが、ほとんどの企業では、そういったプロセスはたとえ存在していたとしても非公式なものでしかないはずだ。
しかしAIとMLによって、データサイエンスを基点とすべき新たな可変要素がプロセスに追加される。サイエンスが最も重要であり、状況と結果のようなパターンを洗い出すという目標が置かれているシナリオでは、AIは必ずしも必要ではないかもしれない。
データサイエンスの適切な実装と、AIの適切な実装の間には共通の因子がある。それはどちらもチームによる取り組みになるというものだ。
しかしAIにとって、そのメリット(そしてリスク)は極めて大きなものとなる。データサイエンスにおいて、意思決定は人が担う行為だ。AIによって、「システム」というもう1つの可変要素が追加される。このシステムは、モデルとアルゴリズムを通じて、データ中に存在する特徴を見つけ出すという人の能力を拡大し、見つけ出した特徴から洞察を導き出し、業務上の利益を生み出す意思決定に供される。AIを用いることで、学習の多く、そして多くの場合において意思決定という行為は、機械に委ねられる。ただ、MLや深層学習(DL)によるアプローチが監督されるか、されないかにかかわらず、人間系がシステム内に組み込まれている必要がある。
アプローチを選択するに際にも、多くの変動要素が絡んでくる。まず、ML用(「Spark MLlib」など)の、あるいはDL用(「TensorFlow」や「Apache MXNet」など)として選択できるオープンソースのフレームワークが戸惑うほど多く存在している。このため、業務に見合った適切なツールの選択は、控えめに言っても難しい作業となる。この選択は、企業が擁している人材のスキルによって左右されることもしばしばある。例えば、Rが社内の共通語になっているのであれば、CRAN(The Comprehensive R Archive Network)ライブラリが好まれるだろう。また、チームがPythonに慣れ親しんでいるのであれば、scikit-learnが選ばれるだろう。同様に、社内のアナリティクスに「Apache Spark」が使用されているのであれば、データ処理パイプラインにMLlibを組み入れる傾向があるだろう。
その後、モデルと目的(意図)の論理的側面をすり合わせる作業が待っている。自らが探し求めている問題の本質が分かっているのだろうか?また、それを見つけ出すために機械の助けが必要なのだろうか?モデルに組み込む機能やパラメータの基準にはどういったものがあるのか、また誤った認識や偏見を意図せず埋め込んでいないだろうか?映画『マイノリティ・リポート』のようなシステムを作り出していないだろうか?MLやDLといったモデルの背景や前提を明文化するというのは、まだあまり前例がないのだ。