ホワイトペーパー

日本語Wikipedia全件データの100倍？！1億文書の検索システムをつくってみた～その結果…

株式会社鉄飛テクノロジー 2018-03-15

“1億文書の全文検索システム”と聞けば、ほとんどの人が「そんなもの、うちには必要ない」と思われるだろう。しかし、何事も極端なチャレンジをしてみなければ、見えてこないこともある──。

そこで、実際にオープンソースの検索エンジンApache Solrで構築し、ファイルサーバ検索として本当に使えるのかどうか、様々な確度から検証した結果を紹介しているのが本資料である。

一口に“一億文書”と言っても、そう簡単に用意できるわけがない。そこで今回は日本語Wikipediaの全件データを100倍に増幅するという荒業を用いた。実証環境は、数年経過した普通の1Uサーバだ。Apache Solrは、鉄飛テクノロジーのファイルサーバ検索システム「Fileblog」にも組み込まれており、その活用領域の幅広さは今さら語るまでもないだろう。

1億文書のインデックス構築、全文検索は成功するのか？そして見えてきた、いくつかの運用課題や、改善ポイントとは？詳細は、ぜひ本資料から確認していただきたい。

4X IDでログインして資料をご覧ください

4X IDはCNET Japan/ZDNET Japanでご利用いただける共通IDです

※2025年10月1日よりAsahi Interactive IDから4X IDへ名称変更いたしました。

関連ホワイトペーパー

生成AI活用はなぜ成果につながらないのか？　P/Lヒットを生む3つのポイント

株式会社ELYZA／KDDI株式会社
専任者ゼロでも、取引先に説明できる体制を。月15万円からのセキュリティ運用

株式会社アイネットテクノロジーズ
生成AI活用は進んだか？4つの指標で自社の現在地を診断

株式会社４Ｘ
限界を迎えるスプレッドシート、意思決定への利用継続がもたらす4つの潜在リスク

日本オラクル株式会社（NetSuite）
仕様が違う、画像が古い、説明が合わない――家電ECの売上を止める“情報のズレ”

Centric Software株式会社

ホワイトペーパー

新着

セキュリティ

ランサムウェアで止まらない基幹業務へ--クラウド選定で見るべき4つの要点
ビジネスアプリケーション

CRMに投資してもなぜ顧客体験は下がるのか。記録から実行へ、部門の垣根を越える次世代CRMの条件
クラウド基盤

AIファクトリー成功の鍵はインフラにあり！統合型冷却・電力基盤が求められる理由
経営

Excel依存とデータ散在を解決、キュリエが実践した「業務標準化」の舞台裏
セキュリティ

“攻撃者と同じ視点”で認知外アセットを可視化。見落としがちな外部公開資産のリスクに対応するには？

ランキング

セキュリティ

調査結果が示す「モバイルセキュリティの死角」、主要なリスクと具体的な防御策とは？
経営

生成AI活用はなぜ成果につながらないのか？　P/Lヒットを生む3つのポイント
セキュリティ

AIセキュリティ確保のための実践ガイド--なぜ従来のセキュリティはAIに通用しないのか
ビジネスアプリケーション

CRMに投資してもなぜ顧客体験は下がるのか。記録から実行へ、部門の垣根を越える次世代CRMの条件
セキュリティ

委託先やクラウドの「見えないリスク」が漏えいを招く、サプライチェーンリスク審査の実践ガイド

ホワイトペーパーライブラリー

ホワイトペーパーカテゴリー

経営

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]