「情報の科学と技術」にエンタープライズサーチに関する特集が掲載されています

http://www.infosta.or.jp/journal/newjmoku.html

情報科学技術協会から出版されている「情報の科学と技術」の最新号(Vol. 59 (2009), No.9)の特集は「エンタープライズサーチ」です。
全体を通してかなり網羅されていると思うので、興味のある方は是非一読されてみては。

エンタープライズサーチによる課題の解決 (9)

かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。
  http://www.atmarkit.co.jp/im/cop/serial/search/01/01.html

解決方法その4. サーチ・エクスペリエンスを有効に利用するための管理機能

エンタープライズサーチは、あくまでもユーザーのための検索ですので、ユーザーがどうやって検索を利用しているのか(サーチ・エクスペリエンス)を知った上で、より使いやすい検索にすることが重要です。

企業内特有のキーワードなどを同義語辞書に登録して利用する、といった作業もその一つです。

 

FAST ESPでは、こういったサーチ・エクスペリエンスの取得、および取得後の作業を簡単に行うためにサーチ・ビジネス・センターというWebベースの管理機能を提供しています。例えば、新たに出てきた企業内特有のキーワードを見つける場合の例です。

 

  1. ユーザーの検索状況を確認し、一件もヒットしなかったキーワードのレポートを参照

  2. 同義語辞書の整備

  3. 整備した同義語辞書を配布

 

また、FAST ESPでは、Webによる管理画面以外にも、コマンドラインツール、管理用APIと企業に合わせた管理方法しています。また、SNMPによる監視機能も提供します。

 

別の観点から、こういった扱いに困る製品名など企業内特有のキーワードを逆手にとって、これらの特有なキーワードをベースにしたエンティティ抽出のステージを作成し、フィールドナビゲーションを実現することで、更に使いやすいエンタープライズサーチとなります。

エンタープライズサーチによる課題の解決 (8)

かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。
  http://www.atmarkit.co.jp/im/cop/serial/search/01/01.html


解決方法その3. 柔軟なカスタマイズ機能を持ったコンテンツのリファインメント

企業で検索を利用するためには、柔軟なカスタマイズ機能を持つ製品の利用が不可欠です。対応しているファイルフォーマットが足りなかったり、コンテンツに関連したメタデータをRDBMSなど別の場所から取得したりといった場面に遭遇した場合に、カスタマイズ機能がなければその実現には多くの労力が必要となります。

FAST ESPでは、「パイプライン」とパイプラインの部品となる「ステージ」機能を提供し、検索システムによってステージを使い分け、時によってはステージを自作することでその柔軟性を確保しています。

上記のエンティティ抽出機能もこのパイプラインで利用する専用のステージで実現されています。検索システムで利用するパイプラインに人名や地名を抽出するステージを組み入れるわけです。

 

 

特殊なCADフォーマットなど、テキスト以外のコンテンツもこのパイプライン機能を利用することで検索に利用することができるようになります。例えば、特殊なフォーマットからテキストデータを取り出すためのモジュール (SDK やバイナリツール) が存在するなら、「モジュールを呼び出してテキストデータを取得する」ステージを含んだパイプラインを上図の「カスタムプラグイン」の箇所に入れます。ステージ作成というと大変なイメージがありますが、FAST ESPでは既に200種類以上のステージのテンプレートを用意しており、その中のあるステージにモジュールの場所を指定するだけで対応できます。

エンタープライズサーチによる課題の解決 (7)

かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。

解決方法その2. コネクターの提供とスコープサーチ

多くのエンタープライズサーチ製品では、Webサーバーやファイルサーバー以外に、Oracle DatabaseなどのRDBMSMicrosoft Office SharePoint ServerなどのCMSLotus Notes/Dominoなどのグループウェアのコンテンツを検索可能とするために、「コネクター」機能を提供します。

コネクターを提供する以上に重要になるのが、「スコープサーチ」機能です。本来はXML文書のような階層構造を持つコンテンツの検索に有効な機能ですが、グループウェアやCMS製品のようにコンテンツのまとまりごとにメタデータの名前や種類が異なる場合(例えば、Lotus Notes/DominoNotesデータベースごとにその設計が異なるケース。おわかりのように極々一般的なケースです。)に、コンテンツを取得しリファインメントする際にメタデータをXML文書のタグ名とタグで囲まれた文字列のような構造で検索インデックスを作成することで、接続先のサーバーやデータベースごとにどのメタデータを取得するかといった設定を行うことなく検索可能とする非常に重要な機能です。これによって、運用管理性を大きく向上させることが可能です。

 

エンタープライズサーチによる課題の解決 (6)

かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。
  http://www.atmarkit.co.jp/im/cop/serial/search/01/01.html

欲しい情報をすぐに得られない、その後者の理由である「どのようなキーワードで検索すればいいかわからない」に関しては、全ての検索対象コンテンツから上記の絞り込み機能を利用して辿り着く方法でも可能ですが、ここでは他の人の検索キーワードから見つけ出す、ということを考えてみましょう。

 

以下の例では、ユーザーごとに事前に検索キーワードや絞り込みの条件を登録しておくことで、ポータルページへの検索結果の表示、その条件をベースに新規に作成されたコンテンツを毎日メールで知らせするといったサーチレット機能を提供し、その上で、他の人が登録したサーチレットを利用しています。こうすれば、同じ部署で社内の情報に長けている人の条件を他の不慣れな人が共有することで、「どのようなキーワードで検索すればいいかわからない」といった状況を打破することができます。

 

エンタープライズサーチによる課題の解決 (5)

かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。
  http://www.atmarkit.co.jp/im/cop/serial/search/01/01.html

以下のケースは、キーワードに「お好み焼き」と入力した際に、人名・会社名・日時・場所のエンティティを表示し、その中の「広島県」を選択した際にウィキペディア上の「徳川」「みっちゃん」などのコンテンツが表示されていることを示しています。「お好み焼き」に関する情報を知りたいと考えた場合に、広島のお好み焼きのことを知りたいのか、大阪のお好み焼きのことを知りたいのか、フィールドナビゲーション機能で絞り込むことで本当に参照したいコンテンツに辿り着けます。「広島」というキーワードを追加して検索することでも似たようなことは可能ですが、最初からは気がつかない、わかった後で文字を入力する必要がない、といったメリットが感じられます。

 

エンタープライズサーチによる課題の解決 (4)

かなり前のことですが、@ITで記事にしていただいていた「エンタープライズサーチと6つの罠」に応える形で、解決方法を記載していきます。
  http://www.atmarkit.co.jp/im/cop/serial/search/01/01.html


 

ナビゲーション機能は、「カテゴリ化(Categorization)」機能の一つと言えます。

カテゴリ化機能はその名の通りコンテンツをある規則でカテゴリに分類する機能を指します。大きく分けて以下の3種類のカテゴリ化機能があります。

 

1. 介在的クラスタリング(Supervised clustering):事前定義した分類方法をベースにした分類機能。分類方法を「タクソノミー(Taxonomy)」と呼び、例えば「B’z」という文字が含まれていれば「音楽」カテゴリの「J-POP」サブカテゴリに分類する、といった定義を手動(または定義集を入手し利用する)で行います。

2. 非介在的クラスタリング(Unsupervised clustering):各コンテンツが持つコンセプトを元に分類します。自動的に分類できる反面、製品の持つ言語解析機能に左右されます。

 

「新聞」で検索した際の非介在的クラスタリングの例

 

3. フィールドナビゲーション : 上記で紹介済みですが、コンテンツのフィールドを元に分類する方法です。コンテンツの種類に依存せず利用でき、最近注目されている分類方法です。