エンタープライズサーチによる課題の解決 (3)


かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。
  http://www.atmarkit.co.jp/im/cop/serial/search/01/01.html


ナビゲーションに表示するためのフィールド情報は、コンテンツのリファインメントによって生成されています。簡単で分かりやすい例として、コンテンツの作成者、作成日付やサイズといった情報が該当します。

 

 

コンテンツの作成者や作成日付は、元のコンテンツのメタデータとして保存されており、その抽出も容易です。ですが、本当にナビゲーションとして表示したい内容はコンテンツの本文に含まれていることが多くあります。これに対応するため、最近では「エンティティ抽出(Entity Extraction)」という機能が提供されています。エンティティ抽出機能は、ナビゲーション機能を更に一歩進るための機能で、検索用インデックスを作成する際に、コンテンツの中にある人名・会社名・地名や年月日の文字列からナビゲーションを自動的に生成します。こういった機能では、辞書の追加によって企業内の製品名・製品番号などに対応させることが可能です。

 

広告