編集部からのお知らせ
解説集:台頭するロボット市場のいま
解説集:データ活用で考えるデータの選び方

政府のオープンデータガイドライン改訂、“構造化PDF”が追加

NO BUDGET

2015-11-12 15:21

 内閣IT総合戦略本部主催の電子行政オープンデータ実務者会議で策定されたガイドライン「オープンデータをはじめよう~地方公共団体のための最初の手引書~」(PDF)のオープンデータ作成例として“構造化PDF”が追加された。アドビシステムズが11月9日に発表した。

 構造化PDFは、PDF文書の内容に章や見出し、段落、図や表などといった文書の論理構造を示すタグを埋め込んだもので、タグ付きPDFとも呼ばれる。PDFは、もともとテキストデータを保持できる文書形式で、テキストを抜き出ししたり検索したりできる。

 構造化PDFにすることで文書の構造や内容のつながりが正確に表現できるため、機械判読性が高まり、複雑なレイアウトの文書でも高い精度でテキストを抜き出し、読み上げられるようになる。構造化PDFはタグがつけられており、タグが示す文書の論理構造を利用することで内容の再利用性や検索性が向上すると説明。ワープロソフトで作った段組みや見出し、段落などの文書構造をPDFにも引き継いでいるため、段組みがあっても見出しや段落の並び順が正確に認識できるとしている。


構造化PDFのイメージ(アドビ提供)

 行政機関の文書には以前からPDFが広く活用されているが、PDFは一般に画像データとして認識されることが多く、ときには紙文書をスキャンした画像のままでテキスト情報をまったく持たないPDF文書もある。こうしたことから、PDFでは検索やコンテンツの再利用が難しいと認識されがちで、オープンデータの作成例にPDFは含まれていなかった。

 だが、PDF作成ツールによっては、データ構造化された機械判読可能なPDFも簡単に作成できることから8月のガイドライン改訂で構造化PDFのデータ作成例に追加された。

 「Adobe Acrobat DC」は、PDFの国際規格である「ISO 32000-1」に準拠した構造化PDFが作成できるほか、他のアプリケーションで作成したファイルをPDF内に埋め込んだり、レイヤを追加してテキストや画像を貼り付けたりできるなどPDFを情報コンテナとして活用できる。同社は、今回のガイドライン改訂を機にAcrobat DCによる構造化PDF作成の認知を拡大し、政府や自治体のオープンデータ推進を支援していくとしている。

情報コンテナとしてのPDF
情報コンテナとしてのPDF(アドビ提供)

ZDNet Japan 記事を毎朝メールでまとめ読み(登録無料)

Special PR

特集

CIO

セキュリティ

スペシャル

ホワイトペーパー

新着

ランキング

  1. クラウドコンピューティング

    AI導入に立ちはだかる「データ」「複雑さ」「コスト」「人材」の壁をどう乗り切ればいいのか?

  2. クラウドコンピューティング

    【IDC調査】2026年には75%のアプリがAIを実装!導入で遅れた企業はどう“逆転”すべきか?

  3. 運用管理

    経産省調査で明らかに:未だにレガシーシステムを抱える企業が8割!オープン化でよくある課題とは?

  4. 運用管理

    AWS東京リージョンの大規模障害に学ぶ、パブリッククラウド上のシステムの迅速な復旧方法

  5. windows-server

    【ユースケース】ソフトウェア開発にDell EMCインフラ+コンテナを使うメリット

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]