トップインタビュー

AIとBIは何が違うのか−−DATUM STUDIO酒巻社長

渡邉利和

2018-01-09 07:00

 ビッグデータや機械学習/ディープラーニング/人工知能(AI)といった、“データ活用”に関連するキーワードが次々と話題に登るが、実際に企業のビジネスにデータを生かすとなると、何から手をつければいいか分からないことも多いのではないだろうか。

 ビジネスにおけるデータ活用を専門とし、『データを活用しようとするすべての企業を、人工知能(AI)を通し支援する会社』を標榜するDATUM STUDIO(データム スタジオ)の酒巻社長に、企業におけるデータ活用の基本から聞いてみた。

“ビジネスのデータ”とは

 学術分野のデータや統計学的なデータが「きれいなデータ」と言えるのに対し、ビジネスのデータは「汚いデータ」と言えます。学校の授業などで統計を扱う場合、最も基本となるのは平均値です。この平均の考えをビジネスで採り入れる場合を考えてみます。例えば「ユーザーは平均で月額1万円を使う」と言った場合、これを聞いた人はたいていは正規分布を暗黙のうちに思い浮かべ、例えば9000円〜1万円といった範囲にほとんどのユーザーが含まれるような状態を思い浮かべます。

 そして、平均からかけ離れた、例えば「10万円使う人」や「100円しか使わない人」がごく少数含まれる、といった状況です。しかし、こうした想定が当てはまるのは「きれいなデータ」の場合で、従来の統計学などはこうしたきれいなデータを前提として、さまざまな理論を積み上げています。実際に、自然界に見られるさまざまなデータはおおむねこうしたきれいな分布になります。例えば、樹木の高さや作物の収穫量、家畜の体重といったデータを調べると、ある平均値を中心とした正規分布を示す例が大半となります。

 一方、ビジネス上のデータでは、「べき乗分布」に従う例が多く見られます。この場合、たとえば、あるサービスを利用する2割位のユーザーは毎月10万円以上支払っており、一方で8割ほどを占める大半のユーザーは100円〜1000円程度しか使っていない、という分布になり、その全体をならした平均値が1万円と算出されたとしても、実際には毎月1万円支払っているユーザーというのはほとんどいない、ということになります。

 しかし、ビジネスを推進する立場の人でも、暗黙に正規分布を想定してそこから発想してしまうことが多いため、「売上の平均値は1万円」というデータを元に、1万円のサービスを企画してしまいがちなのですが、このサービスはほとんど売れないという結果に終わります。

 多数のユーザーが毎月1万円使っているわけではなく、単に平均値を計算すると結果的に1万円という値が算出されただけのことだからで、実際には毎月高額な支払いをしてくれる少数のユーザーと、安価なサービスを利用している多数のユーザーの2グループに分かれているからです。

 これが、統計学で習う正規分布とは異なる、実際のビジネス上のデータの特徴です。このように、これまで研究されてきた統計学やデータ解析手法が正規分布を前提にしている一方で、ビジネスではべき乗分布がよく見られるという乖離があるため、ビジネス上のデータを扱うためには、こうした現実を踏まえたノウハウの有無が大切になってきます。われわれには、15年にもなるビジネスデータ解析の経験があり、さまざまな業種/業界のデータを見てきました。実際のビジネスに即したノウハウを蓄積している点がわれわれの強みとなっています。

どのくらいのデータが必要か

 端的に言えば「データがたくさんあれば、いろいろなことができる」ということになります。“たくさん”とはどのくらいかというと、1番少ない例で3000件が1つの目安となります。顧客ごとの売上金額を分析する場合、日次で分析するなら毎日3000人の売上情報が必要ということです。週次の分析で良ければ、毎週3000件、月次なら毎月3000件、ということになります。経験上、3000件のデータのうち、9割に相当する2700件程度は一見客などのほぼ使い物にならないデータで、1割に当たる300件程度が分析する意味のあるデータとなります。そして、意味のあるデータが300件程度あれば、機械学習などを使ってそのパターンを分析するなどの解析手法がうまく働く、ということです。

 3000件というのは最低限の値で、そこからデータが増えれば増えるほど、より凝った手法が使えるようになります。たとえば、現在流行している“ディープラーニング”を使いたいなら、データ数は10万件以上ないとうまくいきません。それ以下の数のデータしかないなら、別の手法を使って分析する方が精度が得られますが、10万件以上のデータ数があるならディープラーニングのほうが精度が出てきます。

 現在はデータ量が右肩上がりに増大しつつある状況なので、ディープラーニングが適用できる例も今後ますます増えていくだろうと予測していますが、一方でなんでもディープラーニングでやれば良いとは考えていません。場合によっては、ディープラーニングでと依頼されても、もっと適切な手法がありますよ、という提案をすることもあります。

 実際の利用例としては、中古車販売会社と協力して中古車の買取額を決定する査定士のノウハウを人工知能化した例があります。中古車の査定士は、目の前の自動車の製造メーカーや社名、色などを手がかりとして、2週間後に開催されるオークションに出したらこの車はいくらで売れるのか、その額を想像して買取額を決定しています。その判断の手がかりとなるデータを各種入力して人工知能化した結果、人間以上の精度がでるようになった車種がある一方、人間に及ばない車種もあります。この差がデータ量の違いで、流通量の少ない外国車に関しては予測が外れる例がまま見られる一方、データ量が豊富な国産コンパクトカーの場合は人間よりも精度の高い予測が可能となっています。

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    ChatGPTに関連する詐欺が大幅に増加、パロアルトの調査結果に見るマルウェアの現状

  2. セキュリティ

    迫るISMS新規格への移行期限--ISO/IEC27001改訂の意味と求められる対応策とは

  3. セキュリティ

    警察把握分だけで年間4000件発生、IPA10大脅威の常連「標的型攻撃」を正しく知る用語集

  4. セキュリティ

    いま製造業がランサムウェアに狙われている!その被害の実態と実施すべき対策について知る

  5. セキュリティ

    VPNの欠点を理解し、ハイブリッドインフラを支えるゼロトラストの有効性を確認する

ZDNET Japan クイックポール

所属する組織のデータ活用状況はどの段階にありますか?

NEWSLETTERS

エンタープライズコンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]