はじめに
前回に続いて、2025年に公開された論文「FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration」に基づいて、大規模言語モデル(LLM)によるJavaコードの自動マイグレーションに対するベンチマークデータセット(FreshBrew)を紹介します。今回は、FreshBrewを用いた評価の具体例を説明します。
FreshBrewを用いた評価結果
この論文では、FreshBrewに含まれる228個のリポジトリに対して、代表的な大規模言語モデル(LLM)で自動マイグレーションを実施した結果が図1のようにまとめられています。ここでは、JDK 17、および、JDK 21へのマイグレーションを実施しており、「Compilation」はマイグレーション後のコードのコンパイルに成功した割合、「Tests」はすべてのテストが成功した割合、そして、「Overall Success Rate」は、そこからさらに、テストカバレッジが5%ポイント以上減少したもの(報酬ハッキングが疑われるもの)を除外した結果になります。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。

