政府のオープンデータガイドライン改訂、“構造化PDF”が追加

NO BUDGET

2015-11-12 15:21

 内閣IT総合戦略本部主催の電子行政オープンデータ実務者会議で策定されたガイドライン「オープンデータをはじめよう~地方公共団体のための最初の手引書~」(PDF)のオープンデータ作成例として“構造化PDF”が追加された。アドビシステムズが11月9日に発表した。

 構造化PDFは、PDF文書の内容に章や見出し、段落、図や表などといった文書の論理構造を示すタグを埋め込んだもので、タグ付きPDFとも呼ばれる。PDFは、もともとテキストデータを保持できる文書形式で、テキストを抜き出ししたり検索したりできる。

 構造化PDFにすることで文書の構造や内容のつながりが正確に表現できるため、機械判読性が高まり、複雑なレイアウトの文書でも高い精度でテキストを抜き出し、読み上げられるようになる。構造化PDFはタグがつけられており、タグが示す文書の論理構造を利用することで内容の再利用性や検索性が向上すると説明。ワープロソフトで作った段組みや見出し、段落などの文書構造をPDFにも引き継いでいるため、段組みがあっても見出しや段落の並び順が正確に認識できるとしている。


構造化PDFのイメージ(アドビ提供)

 行政機関の文書には以前からPDFが広く活用されているが、PDFは一般に画像データとして認識されることが多く、ときには紙文書をスキャンした画像のままでテキスト情報をまったく持たないPDF文書もある。こうしたことから、PDFでは検索やコンテンツの再利用が難しいと認識されがちで、オープンデータの作成例にPDFは含まれていなかった。

 だが、PDF作成ツールによっては、データ構造化された機械判読可能なPDFも簡単に作成できることから8月のガイドライン改訂で構造化PDFのデータ作成例に追加された。

 「Adobe Acrobat DC」は、PDFの国際規格である「ISO 32000-1」に準拠した構造化PDFが作成できるほか、他のアプリケーションで作成したファイルをPDF内に埋め込んだり、レイヤを追加してテキストや画像を貼り付けたりできるなどPDFを情報コンテナとして活用できる。同社は、今回のガイドライン改訂を機にAcrobat DCによる構造化PDF作成の認知を拡大し、政府や自治体のオープンデータ推進を支援していくとしている。

情報コンテナとしてのPDF
情報コンテナとしてのPDF(アドビ提供)

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]