Amazon Web Services(AWS)は米国時間5月29日、「Amazon Textract」の一般提供(GA)を開始したと発表した。これは、機械学習(ML)を利用し、テーブルやフォームを含むドキュメントから、テキストやデータを自動的に抽出するフルマネージド型のサービスだ。Textractは、同社の年次イベント「re:Invent 2018」で発表された一連の人工知能(AI)活用ツール/サービスの1つであり、MLの専門知識がなくても利用できる。
AWSの最高経営責任者(CEO)Andy Jassy氏はre:Inventで、従来のOCRは「言葉をそのまま読み取るだけで」でそこから有益な情報を取り出すことはできなかったと述べていた。Textractは高機能なOCRサービスだ。例えば、表が入った文書を見て、行と列に整理されたデータを認識できる。同氏は、「(Textractは)表があることを突き止めて、ユーザーがその情報を利用したり、読んだりできるように、その表をあるべき姿にレイアウトしてくれる」と説明していた。
TextractのAPIは、スキャナー出力やPDF、写真などの複数の形式をサポートしている。また、顧客はこれを「Amazon Elasticsearch Service」「Amazon DynamoDB」「Amazon Athena」などのデータベースやアナリティクスサービス、「Amazon Comprehend」「Comprehend Medical」「Amazon Translate」「Amazon SageMaker」などの機械学習サービスとともに利用できる。
これまでに、The Globe and Mail、PwC、Healthfirst、UiPath、TeraDact、Ripcord、Blue Prism、Alfrescoなどの顧客やパートナーがTextractを利用している。
Textractは現在、米国東部(オハイオ)、米国東部(バージニア北部)、米国西部(オレゴン)、欧州(アイルランド)で提供されている。2020年にはさらなるリージョンでも提供される予定だ。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。