はじめに
今回からは、2025年に公開された論文「FreshBrew: A Benchmark for Evaluating AI Agents on Java Code Migration」に基づいて、大規模言語モデル(LLM)によるJavaコードの自動マイグレーションに対するベンチマークデータセット(FreshBrew)を紹介していきます。今回は、このようなデータセットが求められる背景とFreshBrewの特徴を解説します。
LLMによるJavaコードマイグレーション
大規模言語モデル(LLM)によるコード生成の性能向上により、アプリケーション開発のさまざまな側面でLLMが利用されるようになりました。LLMによるコードマイグレーションもそのようなユースケースの1つです。冒頭の論文では、特に、Javaのバージョンアップに伴うコード変更をLLMで自動化するタスクに着目しています。Javaのアプリケーションでは何らかのフレームワークを利用することが多く、セキュリティ対応のためにフレームワークをアップデートする際に、ベースとなるJavaそのもののバージョンアップが必要となるケースがあります。しかしながら、Javaはバージョンアップに伴う後方互換性を保証しておらず、マイナーアップデートを含むすべてのアップデートの約1/3に後方互換性を損なう変更が含まれるという調査結果が報告されています。そのため、セキュリティ対応などを含めて、Javaのアプリケーションを健全な状態に保つには、Javaのバージョンアップに伴う非自明なコードマイグレーションを定期的に実施する必要があります。この作業をLLMで自動化できる可能性がありますが、このような移行タスクの性能を適切に評価する方法が定まっていないという課題があります。冒頭の論文では、コードマイグレーションの性能評価の方法について議論した上で、GitHubで公開されているオープンソースのアプリケーションコードを用いた独自のベンチマークデータセットについて解説しています。
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。

