はじめに
前回に続いて、2025年に公開された論文「CoDA: Agentic Systems for Collaborative Data Visualization」を紹介していきます。今回は、CoDAの評価結果を紹介します。
既存システムとの性能比較
冒頭の論文では、既存の類似システム(MatplotAgent、VisPath、CoML4VIS)とCoDAの性能比較を行っています。それぞれのシステムの詳しい説明は割愛しますが、比較結果は図1のようにまとめられます。
図1 CoDAと類似システムの性能比較結果(論文より抜粋)
ここでは、それぞれのシステムで使用するLLMは、gemini-2.5-proに統一してあり、MatplotBenchとQwen Code Interpreterの2種類のベンチマークに対して、次の3種類の評価値が示されています。
・ERP(Execution Pass Rate):エラーを発生せずになんらかの画像を生成するコードが生成された割合
・VSR(Visualization Score Rate):なんらかの画像が生成された場合に、その画像の品質をLLMで評価したスコア(テストケース全体での平均スコア)
・OS(Overall Score):なんらかの画像が生成された場合に、その画像品質と生成されたコードの内容をLLMで評価した平均スコア(テストケースごとに画像のスコアとコードのスコアの平均値を計算して、さらにテストケース全体で平均)
この続きは以下をご覧ください
(リンク »)
お問い合わせにつきましては発表元企業までお願いいたします。

