編集部からのお知らせ
新着の記事まとめPDF「NTT」
おすすめ記事まとめ「MLOps」

イースト、 PDFからの構造化テキスト抽出に成功、岩波新書をEPUB化

イースト株式会社

From: PR TIMES

2019-07-18 11:40

イースト株式会社(本社:東京都渋谷区代々木、代表:熊野哲也)は、テキストPDFからの構造化テキストの取り出しに成功し、この技術を使った岩波新書EPUB化を開始しました。「EPUBpack(イーパブパック)」というクラウドストレージを使ったトータルサービスとして販売します。



[画像: (リンク ») ]

抽出アプリは、PDFに目次頁、大見出し、小見出しなど若干のマークを付け、構造化されたマークダウン(簡易HTML)形式のテキストを出力します。その際、画像、表、グラフなどの図版はキャプション文字を組み込んだ画像ファイルが生成され、ルビ、窓見出し、頁単位の縦組み/横組み混在なども正しく抽出されます。
このマークダウンファイルを独自のCMS(コンテンツ管理クラウド)に入れ、電書協ガイドに沿った正確なEPUBを制作、「EPUB 3.2」にも対応します。CMSなので書籍の改訂が容易で、コンテンツの履歴管理にはGitを使用しています。

イーストは2004年にAdobe本社と契約しAdobe PDFライブラリの販売を開始。15年間蓄積したPDFドキュメント技術で抽出アプリを開発しました。日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われ、新書、文庫、一般書、学術書などの出版物、学術論文、そして深層学習(AI)に投入する社内ドキュメントの構造化など、様々な分野への応用を期待しています。

岩波書店様はこの技術にいち早く着目され、EPUB化に活用されています。

7月31日に日本電子出版協会が主催するセミナーでこの技術を初公開し、8月8日午後イースト社内で90分の個別セミナーを開催します。
EPUBpack  (リンク »)
8/8 イースト説明会  (リンク »)
7/31 JEPAセミナー  (リンク »)
電書協ガイド  (リンク »)
岩波書店  (リンク »)
イースト株式会社  (リンク »)

プレスリリース提供:PR TIMES (リンク »)
本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。

イースト株式会社の関連情報

【企業の皆様へ】企業情報を掲載・登録するには?

御社の企業情報・プレスリリース・イベント情報・製品情報などを登録するには、企業情報センターサービスへのお申し込みをいただく必要がございます。詳しくは以下のページをご覧ください。

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    アンチウイルス ソフトウェア10製品の性能を徹底比較!独立機関による詳細なテスト結果が明らかに

  2. 経営

    10年先を見据えた働き方--Microsoft Teamsを軸に社員の働きやすさと経営メリットを両立

  3. セキュリティ

    6000台強のエンドポイントを保護するために、サッポログループが選定した次世代アンチウイルス

  4. セキュリティ

    ローカルブレイクアウトとセキュリティ-SaaS、Web会議があたりまえになる時代の企業インフラ構築

  5. 運用管理

    マンガでわかるスーパーマーケット改革、店長とIT部門が「AIとDXで トゥギャザー」するための秘策

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNet Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]