CRM大手のSalesforce.comが、SQLといったデータベースクエリ言語の知識を持たない業務ユーザーでもデータベースとやり取りできるようにする新システムを開発している。
同社の人工知能(AI)研究チームが開発し、その学術論文で解説されている「Seq2SQL」というシステムは、自然言語による質問を同等なSQLクエリに変換するディープニューラルネットワーク(DNN)だ。例えばユーザーは、「顧客満足度のスコアが最も低いのはどのアカウントか」といった質問を入力することで、同システムに対して適切なデータベースへのクエリを発行させ、結果を受け取れるようになる。
同論文の説明によると、このモデルはポインタネットワーク(Pointer Network)から着想を得ており、アテンションを導入したSequence-to-Sequence(Attentional seq2seq)モデルのように固定されたボキャブラリから言葉を生成するのではなく、入力シーケンスから選択して言葉を生成するという。
同社は、強化学習を適用することで、このモデルがAttentional seq2seqモデルよりも正確な結果をもたらせるようなったと述べている。同論文によると、Seq2SQLによって実行精度が35.9%から60.3%に向上し、論理形式での精度は23.4%から49.2%に向上したという。
同社によると、このモデルは推論中にテーブルのコンテンツにアクセスする必要がないという。
同社はまた、「WikiSQL」のローンチも発表した。これは8万7000を超える自然言語による質問と、SQLクエリ、Wikipedia内の2万6000を超えるHTMLテーブルから抽出したSQLのテーブルからなるオープンソースのデータセットだ。
Wikipediaから抽出されたHTMLテーブルはその後、ランダムに生成するSQLクエリの基礎とされた。このクエリは質問を生成するために用いられ、質問はその後Amazonのクラウドソーシングマーケットプレイスである「Amazon Mechanical Turk」が抱える人材に引き渡され、言い換えが行われた。この言い換えが、生成された質問と同じ意味を持っていることは、他の2人の人材によって検証された。
データベースのクエリを簡単に行えるようにしようと取り組んでいる企業は、Salesforceだけではない。Tableau Softwareの子会社であるClearGraphのテクノロジは、技術的な訓練を受けていないユーザーによるデータへのアクセスと分析を容易にするというよく似た目的を持っている。
ClearGraphのテクノロジは、時間とともに拡張、学習していけるようなかたちでセマンティック(意味)データをナレッジグラフに格納していくというものだ。例を挙げると、ユーザーは「ニューヨークでホッチキスの針を購入した顧客によってもたらされた売上の合計」を照会し、その後で「過去30日以内に注文を受けたもの」という条件で結果を絞り込んだうえで、「プロジェクトオーナーの部門単位」で結果を分類できるようになる。
この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。