シンプソン係数

用語の解説

シンプソン係数とは

(シンプソンケイスウ,Simpson's Coefficient,)
シンプソン係数とは、自然言語処理における係数の一種で、XというキーワードとYというキーワードが同じページや同じ文書内で出現する(共起する)場合の頻度の強さを表現する指標として使用される係数のことである。
主にWebなどの大規模文書において採用されている。 シンプソン係数は、次のような式で表される。 例えば、検索エンジンを使って「りんご」「みかん」と検索した場合、仮に「りんご」というキーワードの検索結果が5,830,000件、「みかん」というキーワードの検索結果が5,370,000件、「りんご みかん」という検索条件の検索結果は1,970,000件ヒットしたとする。 この場合、「りんご」と「みかん」に関するシンプソン係数は、以下のように求められる。 simpson(X,Y) = 1970000/min(5830000, 5370000) = 0.366852886 なお、一般的には、シンプソン係数が高ければ高いほど、両方のキーワードの相関関係が強いと推定されるが、シンプソン係数は、比較される一方の語の検索結果がもう一方の語と比べて極端に少ない場合には、関係性がさほど強くないキーワード同士でも高い値が出てしまう、という一面も持っている。 このため、閾値を設けて制限をかけた上で利用したり、得られた実験結果を実際人間の目で見て相互に関係性の強いキーワード同士であるかどうかを、検証したりすることで、シンプソン係数だけでは十分に加味できていない側面を補完することも多い。

用語解説出典   powered by. Weblio

ホワイトペーパー

新着

ランキング

  1. セキュリティ

    「デジタル・フォレンジック」から始まるセキュリティ災禍論--活用したいIT業界の防災マニュアル

  2. 運用管理

    「無線LANがつながらない」という問い合わせにAIで対応、トラブル解決の切り札とは

  3. 運用管理

    Oracle DatabaseのAzure移行時におけるポイント、移行前に確認しておきたい障害対策

  4. 運用管理

    Google Chrome ブラウザ がセキュリティを強化、ゼロトラスト移行で高まるブラウザの重要性

  5. ビジネスアプリケーション

    技術進化でさらに発展するデータサイエンス/アナリティクス、最新の6大トレンドを解説

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]