[画像: (リンク ») ]
抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。
このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています。
イーストは2004年にAdobe本社と契約しAdobe PDFライブラリの販売を開始。15年間蓄積したPDFドキュメント技術で抽出アプリを開発しました。日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われ、新書、文庫、一般書、学術書などの出版物、学術論文、そして深層学習(AI)に投入する社内ドキュメントの構造化など、様々な分野への応用を期待しています。
岩波書店様はこの技術にいち早く着目され、EPUB化に活用されています。
7月31日に日本電子出版協会が主催するセミナーでこの技術を初公開し、8月8日午後イースト社内で90分の個別セミナーを開催します。
EPUBpack (リンク »)
8/8 イースト説明会 (リンク »)
7/31 JEPAセミナー (リンク »)
電書協ガイド (リンク »)
岩波書店 (リンク »)
イースト株式会社 (リンク »)
プレスリリース提供:PR TIMES (リンク »)

お問い合わせにつきましては発表元企業までお願いいたします。