人工知能(AI)の普及はいまだかつてないほどに進んでいる。その理由の1つは、最近になって生成AIツールが急速に進歩し、利用しやすくなったことにある。
米国では、「ChatGPT」が2022年11月に提供され始めてから、1度もその名前を聞いたことがない人を見つけるのが難しいほどになっている。しかしこれらのシステムは、人間によって作られた学習データ以上に賢くなるわけではない。これはつまり、人間と同じように、AIツールが偏見に侵されやすいことを意味している。
Bloombergは最近、「GPT-3.5」と「GPT-4」が持つ人種的偏見についての調査結果を発表した。この調査は、GPT-3.5を使って、応募者の名前は異なっているが、そこに書かれている適性(資格やスキルなど)は同じである多数の履歴書をランク付けさせるというものだ。その結果、GPT-3.5は、アフリカ系アメリカ人などの特定の人口統計学的属性を持つグループで伝統的に使用されている名前を持つ人々を、リストの下位にランク付けした。また、OpenAIが偏りが少ないとうたっているGPT-4でも、明確な差が見られた。
英国の放射線医学論文誌であるBritish Journal of Radiologyに掲載された論文でも、医療アプリケーションで使用されているAIモデルが、医療へのアクセスや受けてきた医療の質に関する歴史的な不平等や格差が原因で生じている、既存のバイアスの影響を受けていることが明らかになった。これらの要因は、AIシステムが不平等を反映したデータで訓練された場合には特に強まる傾向がある。
この記事では、AIが職場の偏見を助長してしまう可能性がある4つのリスクを紹介する。
1.名前による差別
生成AIの台頭は、自動化された採用支援システムにも影響を与えている。しかも多くの企業は、経費削減や効率化のために、採用活動でAIツールを活用することに熱心だ。ところが、ChatGPTなどのAIツールは、人の名前に基づく偏見をあからさまに示すことが分かってきた。
Bloombergの研究者(Leon Yin氏、Davey Alba氏、Leonardo Nicoletti氏)が行った調査では、特定の人種や民族を連想させる名前を使って8種類の履歴書を作成し、GPT-3.5(無料版のChatGPTで使用されている大規模言語モデル〈LLM〉)を使って、採用候補者としての適切さをランク付けした。その結果、GPT-3.5は、以前から社会学の研究で指摘されてきた人種的偏見を助長する形で、一部の人口統計学的属性を持つグループを他のグループよりも有利に取り扱い、「社会的保護を必要とするグループに対する職業差別を評価するベンチマークでは合格できない水準」の結果を示した。
研究者らは、仕事に対する適性の条件は変えずに、名前との組み合わせだけを変えながら1000回実験を行った。その結果、GPT-3.5はファイナンシャルアナリストの候補としてアジア系アメリカ人を上位に挙げる可能性が最も高く(32%)、アフリカ系アメリカ人は下位に位置づけられることが多かった。平等に扱われる可能性が最も可能性が高かったのは、白人やヒスパニック系の名前の候補者だった。
2.職種によって異なる基準が使用される
どの履歴書もファイナンシャルアナリストとしての適性は同じであったにもかかわらず、LLMは人種的偏見を示した。さらに、それとは異なる3種類の求人情報(人事ビジネスパートナー、シニアソフトウェアエンジニア、小売店マネージャー)に対しても同じ実験を繰り返したところ、職種によってAIが好ましいと考える性別や人種が異なることが分かった。