Sansanのデータ統括部門「DSOC」独自のOCRエンジン「DSOC OCR」を開発

Sansan株式会社

From: PR TIMES

2020-11-27 12:46

メールアドレスを99.7%以上の精度でデータ化

Sansan株式会社は、同社のデータ統括部門DSOC(Data Strategy & Operation Center)が、名刺の取り込みに特化した独自のOCR(光学文字認識)エンジン「DSOC OCR」を新たに開発したことを発表します。

DSOC OCRは、現在、「Eメールアドレス」と「氏名」に対応しており、Eメールアドレスに関しては、99.7%の精度でデータ化することが可能です。なお、DSOC OCRは、名刺全体にそのデータ化範囲を広げるように、順次開発を進めていきます。



[画像: (リンク ») ]


■DSOC OCR開発の背景
OCRは、画像中の文字列を検出・認識し、文字コードとして出力する技術です。当社が提供するクラウド名刺管理サービスにおいては、名刺をスキャナやスマートフォンで読み取り、データ化する過程でOCRを使用しています。

名刺は、ビジネスシーンで日常的にかわされる媒体です。氏名やEメールアドレスなどを正しく、ビジネスで活用するという目的上、限りなく100%に近い精度でデータ化しなくてはいけませんが、現在の技術では、OCRエンジン単体で、その精度は担保ができません。Sansanでは、データ化精度を担保するために、OCRと手入力を組み合わせたデータ化フローを構築し、ユーザー企業にサービスを提供してきました。また、名刺スキャン後、すぐに名刺データを活用したいユーザーには、これまでOCRのみを用いた一次納品を実施ししていました。

OCRのさらなる精度向上により、ユーザーが即時に使える一次納品のデータ化精度が上がるだけではなく、ユーザーが99.9%の精度のデータを二次納品で受け取れるまでの時間も短縮することができます。また、当社が展開するSmart Entryやイベントテック事業においても活用できると考え、DSOCでは名刺の読み取りに特化した独自のOCRエンジンの開発に注力してきました。

■DSOC OCRとは
DSOC OCRは、名刺に特化した当社独自のOCRエンジンです。DSOCに所属するKaggle (※1)グランドマスターを中心に開発されました。これまでのDSOCのデータ化ノウハウをOCRエンジンに展開することにより、現段階では、Eメールアドレスと氏名のデータ化に対応し、Eメールアドレスのデータ化精度においては99.7%を実現しました。

DSOC OCRの特徴は次のとおりです。

・どんな状態のデータでも、高い精度でデータ化。Eメールアドレスは99.7%の精度
OCRは、その撮影された画像により、精度にばらつきが出ます。DSOC OCRは、Sansanのデータ統括部門が名刺のデータ化に用いたノウハウを用いることにより、定型・不定形や撮影された環境を問わず、全てのデータにおいて、99.7%の精度で、Eメールアドレスのデータ化を実現します。

・高速処理を実現したハイパフォーマンス
OCRではデータ化した後に、即使用するシーンでの活用が求められるため、正確さだけではなく、スピードも求められます。DSOC OCRでは、0.3秒の即時デジタル化に対応した、超ハイパフォーマンスを実現しました。これにより、サービス内に実装された際に、ユーザー体験を損ないません。

DSOCは、今後DSOC OCRをさらに高い精度のOCRにするため、開発を加速してまいります。具体的には、「社名」「役職」「住所」「電話番号」といった、名刺全項目に対応できるように、開発を進めます。

今後もSansanは、「出会いからイノベーションを生み出す」という当社のミッション実現へ向けて、進化を続けてまいります。

※1:Kaggleとは、世界最大の機械学習コンペティションのプラットフォームです。

(以上)

■DSOCについて
DSOCは、Sansan株式会社のデータ統括部門です。データドリブンによって企業の事業成長をリードすることを目的として、「データ化」「データ活用」という2つの役割を担っています。独自開発のAIを活用したデータ化技術により膨大な「出会い」を正確にデータベース化し、それを分析・活用することで、企業の情報、人物の情報、人と人のつながりの情報など、ビジネスシーンで活用できる「価値ある情報」を生み出します。そして、その成果はサービスを通じて新しい価値として提供しています。多様なバックグラウンドや専門領域を持つ研究者やデータサイエンティストなどのR&Dメンバーを擁するDSOCは、サービスを支えるとともに企業の事業成長を牽引します。
(リンク »)

■Sansan株式会社 会社概要
「出会いからイノベーションを生み出す」をミッションとして掲げ、法人向けクラウド名刺管理サービス「Sansan」および個人向け名刺アプリ「Eight」を開発・提供しています。名刺管理を起点としたビジネスプラットフォームとして活用できるサービスを国内外で提供しています。

設立:2007年6月11日
URL: (リンク »)
所在地:150-0001 東京都渋谷区神宮前5-52-2 青山オーバルビル13F
資本金:62億36百万円(2020年5月31日時点)
事業内容:クラウド名刺管理サービスの企画・開発・販売
法人向け「Sansan」  (リンク »)  個人向け「Eight」  (リンク »)

プレスリリース提供:PR TIMES (リンク »)
本プレスリリースは発表元企業よりご投稿いただいた情報を掲載しております。
お問い合わせにつきましては発表元企業までお願いいたします。

【企業の皆様へ】企業情報を掲載・登録するには?

御社の企業情報・プレスリリース・イベント情報・製品情報などを登録するには、企業情報センターサービスへのお申し込みをいただく必要がございます。詳しくは以下のページをご覧ください。

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

自社にとって最大のセキュリティ脅威は何ですか

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]