普遍性を担保するための多様性--AIに読ませるデータが「虹色」である必要 - (page 4)

日塔史

2017-08-23 07:00

　人工知能には学習データが必要だが、その元データに偏りがある場合、それは開発者にとっても利用者にとっても正しい結果が得られるものにならない。

　いくらビッグなデータを集めても、その母集団自体が特殊で偏りがあれば、その特殊な世界の中でしか通用しない。例えば、米Kaggleに所属する言語学者Rachael TatmanはGoogleの音声認識（YouTubeの自動キャプション）にはジェンダーバイアスがあり女性の認識精度は47％と半分以下なのに、男性の認識精度は60%もあることを発表した。

（出典：Rachael Tatman） https://makingnoiseandhearingthings.com/2016/07/12/googles-speech-recognition-has-a-gender-bias/

　よって必然的に学習データには偏りがなく、世界を正しく記述できる要素がそろわなければ現実世界に適用できないものができ上がる。もしくは一部の優遇される者たちが益々優遇され、見捨てられるものの存在は覆い隠される。

　そうなると、社会の分断はさらに深まり世界全体が不安定となる。そして結果的に自分が危険にさらされる。レインボーにそめられたカリフォルニアをみると、世界を丸ごと相手にするためには、世界丸ごとの要素が必要なのかも知れない。

　「普遍性」を担保するデータベースは「多様性」が必要条件である。インプットの多様性が高ければ高いほど、そこから抽出されるアウトプットの抽象度が上がる。

　多様性によって鍛え上げられた強力なアルゴリズムは生存可能性が高くなる。カリフォルニアのレインボーカラーを偏りなく愛する情熱は、必ずしも倫理的な理由からだけでなく、それがビッグデータ時代／人工知能時代の大きな力となることを本能的に理解しているからなのかも知れない。

　多様性は「モラル」ではなく「パワー」なのだ。

　なお、そのシリコンバレーでは日本人の存在は薄く、私たちが珍しがられることもしばしばだったことが気がかりだ。

日塔史（にっとうふみと）: （株）電通ビジネス・クリエーション・センター　主任研究員、（株）電通ライブ　第1クリエーティブルーム　チーフ・プランナー、日本マーケティング協会　客員研究員。
現在、「ヒアラブル」をテーマにソリューションを開発中。日本広告業協会懸賞論文「論文の部」金賞連続受賞（2014年度、2015年度）。電通報ほか寄稿・講演多数。