AI開発でよく耳にする「アノテーション」とは?

Charly Walther (Gengo)

2019-03-15 07:00

 人工知能(AI)の領域には、さまざまな専門用語があります。「よく耳にするけど、実はあまり分かっていない」というキーワードも少なくありません。今回は、そういった用語の中から「アノテーション」を取り上げ、その意味を解説します。

そもそもアノテーションとは?

 アノテーションはテキストや音声、画像などあらゆる形態のデータにタグを付ける作業のことです。

 機械学習アルゴリズムはタグが付いたデータを取り込むことで、パターンを認識できるようになります。そのためAI開発者は、機械学習アルゴリズムを学習させるために、タグが付いた状態のデータを用意することが必須となります。正確にタグ付けできていないデータを取り込んでも、AIは正しく学習できません。そのため、アノテーションは機械学習における、不可欠な前処理とも言えるのです。

さまざまなアノテーションの種類

 一口に「アノテーション」といっても、さまざまな種類があります。代表的なものを幾つか紹介します。

意味的(セマンティック)アノテーション:

 意味的アノテーションは、「人」「物」「企業名」などテキスト内のさまざまな単語に意味付けをするタグ付けです。機械学習アルゴリズムがデータを読み込めるようにするのが目的です。意味的アノテーションの活用事例には、検索エンジンの関連性の改良やチャットボットの学習などがあります。

画像・映像アノテーション:

 機械学習による画像認識や映像処理は、機密情報の自動認識・漏えい防止、自動車の自動運転、電子商取引での商品リストの分類など幅広く活用されています。

 これらの機械学習モデルは、画像や映像の内容を理解しなければ機能しません。データサイエンティストは、機械学習アルゴリズムに画像認識や映像処理を学習させるために、グラウンドトゥルース(現場測定データ)として利用できる、正確にタグ付けされた大量のデータを必要とします。

 一般的に画像や映像のアノテーションでは、画像に描かれた架空の箱であるバウンディングボックスを使用します。機械学習モデルが、バウンディングボックスの中のものをそれぞれ異なる種類の情報だと認識できるように、タグが付けられています。

テキスト・コンテンツ分類:

 テキストやコンテンツ分類も「アノテーション」に含まれるものです。これは、前もって定義されたカテゴリをフリーテキストで書かれた文書に割り当てる作業です。例えば、文書の中の文や段落を、トピックごとにタグ付けすることができます。コンテンツ分類の代表的な例としては、国内、国際、スポーツ、娯楽など主題別のカテゴリでニュース記事を分類することが挙げられます。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]