政府のオープンデータガイドライン改訂、“構造化PDF”が追加

NO BUDGET 2015年11月12日 15時21分

  • このエントリーをはてなブックマークに追加

 内閣IT総合戦略本部主催の電子行政オープンデータ実務者会議で策定されたガイドライン「オープンデータをはじめよう~地方公共団体のための最初の手引書~」(PDF)のオープンデータ作成例として“構造化PDF”が追加された。アドビシステムズが11月9日に発表した。

 構造化PDFは、PDF文書の内容に章や見出し、段落、図や表などといった文書の論理構造を示すタグを埋め込んだもので、タグ付きPDFとも呼ばれる。PDFは、もともとテキストデータを保持できる文書形式で、テキストを抜き出ししたり検索したりできる。

 構造化PDFにすることで文書の構造や内容のつながりが正確に表現できるため、機械判読性が高まり、複雑なレイアウトの文書でも高い精度でテキストを抜き出し、読み上げられるようになる。構造化PDFはタグがつけられており、タグが示す文書の論理構造を利用することで内容の再利用性や検索性が向上すると説明。ワープロソフトで作った段組みや見出し、段落などの文書構造をPDFにも引き継いでいるため、段組みがあっても見出しや段落の並び順が正確に認識できるとしている。


構造化PDFのイメージ(アドビ提供)

 行政機関の文書には以前からPDFが広く活用されているが、PDFは一般に画像データとして認識されることが多く、ときには紙文書をスキャンした画像のままでテキスト情報をまったく持たないPDF文書もある。こうしたことから、PDFでは検索やコンテンツの再利用が難しいと認識されがちで、オープンデータの作成例にPDFは含まれていなかった。

 だが、PDF作成ツールによっては、データ構造化された機械判読可能なPDFも簡単に作成できることから8月のガイドライン改訂で構造化PDFのデータ作成例に追加された。

 「Adobe Acrobat DC」は、PDFの国際規格である「ISO 32000-1」に準拠した構造化PDFが作成できるほか、他のアプリケーションで作成したファイルをPDF内に埋め込んだり、レイヤを追加してテキストや画像を貼り付けたりできるなどPDFを情報コンテナとして活用できる。同社は、今回のガイドライン改訂を機にAcrobat DCによる構造化PDF作成の認知を拡大し、政府や自治体のオープンデータ推進を支援していくとしている。

情報コンテナとしてのPDF
情報コンテナとしてのPDF(アドビ提供)

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

  • このエントリーをはてなブックマークに追加

この記事を読んだ方に

関連ホワイトペーパー

SpecialPR

連載

CIO
研究現場から見たAI
Fintechの正体
米ZDNet編集長Larryの独り言
大木豊成「仕事で使うアップルのトリセツ」
山本雅史「ハードから読み解くITトレンド放談」
田中克己「2020年のIT企業」
松岡功「一言もの申す」
松岡功「今週の明言」
内山悟志「IT部門はどこに向かうのか」
林 雅之「デジタル未来からの手紙」
谷川耕一「エンプラITならこれは知っとけ」
大河原克行「エンプラ徒然」
内製化とユーザー体験の関係
「プロジェクトマネジメント」の解き方
ITは「ひみつ道具」の夢を見る
セキュリティ
「企業セキュリティの歩き方」
「サイバーセキュリティ未来考」
「ネットワークセキュリティの要諦」
「セキュリティの論点」
スペシャル
課題解決のためのUI/UX
誰もが開発者になる時代 ~業務システム開発の現場を行く~
「Windows 10」法人導入の手引き
ソフトウェア開発パラダイムの進化
エンタープライズトレンド
10の事情
座談会@ZDNet
Dr.津田のクラウドトップガン対談
展望2017
Gartner Symposium
IBM World of Watson
de:code
Sapphire Now
VMworld
Microsoft WPC
HPE Discover
Oracle OpenWorld
Dell EMC World
AWS re:Invent
AWS Summit
PTC LiveWorx
より賢く活用するためのOSS最新動向
古賀政純「Dockerがもたらすビジネス変革」
中国ビジネス四方山話
ベトナムでビジネス
米株式動向
日本株展望
企業決算