グーグルのクラウドを支えるテクノロジー　＞　第214回　LLMによるJavaマイグレーションのベンチマークデータセット（パート2）

2026-04-10 09:00

CTC教育サービスはコラム「グーグルのクラウドを支えるテクノロジー　＞　第214回　LLMによるJavaマイグレーションのベンチマークデータセット（パート2）」を公開しました。

＃＃＃

はじめに
　前回に続いて、2025年に公開された論文「FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration」に基づいて、大規模言語モデル（LLM）によるJavaコードの自動マイグレーションに対するベンチマークデータセット（FreshBrew）を紹介します。今回は、FreshBrewを用いた評価の具体例を説明します。

FreshBrewを用いた評価結果
　この論文では、FreshBrewに含まれる228個のリポジトリに対して、代表的な大規模言語モデル（LLM）で自動マイグレーションを実施した結果が図1のようにまとめられています。ここでは、JDK 17、および、JDK 21へのマイグレーションを実施しており、「Compilation」はマイグレーション後のコードのコンパイルに成功した割合、「Tests」はすべてのテストが成功した割合、そして、「Overall Success Rate」は、そこからさらに、テストカバレッジが5%ポイント以上減少したもの（報酬ハッキングが疑われるもの）を除外した結果になります。

この続きは以下をご覧ください
(リンク »)