内閣IT総合戦略本部主催の電子行政オープンデータ実務者会議で策定されたガイドライン「オープンデータをはじめよう~地方公共団体のための最初の手引書~」(PDF)のオープンデータ作成例として“構造化PDF”が追加された。アドビシステムズが11月9日に発表した。
構造化PDFは、PDF文書の内容に章や見出し、段落、図や表などといった文書の論理構造を示すタグを埋め込んだもので、タグ付きPDFとも呼ばれる。PDFは、もともとテキストデータを保持できる文書形式で、テキストを抜き出ししたり検索したりできる。
構造化PDFにすることで文書の構造や内容のつながりが正確に表現できるため、機械判読性が高まり、複雑なレイアウトの文書でも高い精度でテキストを抜き出し、読み上げられるようになる。構造化PDFはタグがつけられており、タグが示す文書の論理構造を利用することで内容の再利用性や検索性が向上すると説明。ワープロソフトで作った段組みや見出し、段落などの文書構造をPDFにも引き継いでいるため、段組みがあっても見出しや段落の並び順が正確に認識できるとしている。
構造化PDFのイメージ(アドビ提供)
- TechRepublic Japan関連記事:ハイブリッドクラウド座談会
- 企業ITの行き先を徹底討論する
- エンタープライズ×AWSをさまざまな視点で議論
- SDNやDockerは何を変えるのか
- アーキテクチャを理解しておく必要がある
- IT部門に求められるスキルが変化している
行政機関の文書には以前からPDFが広く活用されているが、PDFは一般に画像データとして認識されることが多く、ときには紙文書をスキャンした画像のままでテキスト情報をまったく持たないPDF文書もある。こうしたことから、PDFでは検索やコンテンツの再利用が難しいと認識されがちで、オープンデータの作成例にPDFは含まれていなかった。
だが、PDF作成ツールによっては、データ構造化された機械判読可能なPDFも簡単に作成できることから8月のガイドライン改訂で構造化PDFのデータ作成例に追加された。
「Adobe Acrobat DC」は、PDFの国際規格である「ISO 32000-1」に準拠した構造化PDFが作成できるほか、他のアプリケーションで作成したファイルをPDF内に埋め込んだり、レイヤを追加してテキストや画像を貼り付けたりできるなどPDFを情報コンテナとして活用できる。同社は、今回のガイドライン改訂を機にAcrobat DCによる構造化PDF作成の認知を拡大し、政府や自治体のオープンデータ推進を支援していくとしている。
情報コンテナとしてのPDF(アドビ提供)