ワード ブレーカーの分かち書き動作を確認する


マイクロソフト製品上の検索機能やエンタープライズサーチ製品での日本語の分かち書きの動作を確認したいぞ、ということで OS 標準のワード ブレーカーを呼び出して結果を返すコマンドライン ツールを作ってみましたので、以下を参考にどうぞ。

  1. SkyDrive から WordBreaker.zip をダウンロード
  2. 適当なフォルダに展開
  3. Visual Studio 2010 でソリューション ファイル (<展開したフォルダ>\WordBreaker\WordBreaker.sln) を開く
  4. コンパイル
  5. コマンド プロンプトで実行モジュールのフォルダ (<展開したフォルダ>\WordBreaker\WordBreakerTest\bin\Debug) へ移動
  6. 「WordBreakerTest.exe “<分かち書きしたい文字列>”」で実行

実行例は以下の通りです。

C:\xxx\WordBreaker\WordBreakerTest\bin\Debug>WordBreakerTest.exe “今日の日はさようなら。明日も頑張ろう。”
PutWord buffer: 今日
PutWord buffer: の
PutWord buffer: 日
PutWord buffer: は
PutWord buffer: さようなら
PutBreak : EOS
PutWord buffer: 明日
PutWord buffer: も
PutWord buffer: 頑張ろう
PutBreak : EOP

C:\xxx\WordBreaker\WordBreakerTest\bin\Debug>WordBreakerTest.exe “ABC”
PutAltWord buffer: ABC
PutWord buffer: ABC

C:\xxx\WordBreaker\WordBreakerTest\bin\Debug>WordBreakerTest.exe “アイウエオ”
PutAltWord buffer: アイウエオ
PutWord buffer: アイウェオ

C:\xxx\WordBreaker\WordBreakerTest\bin\Debug>WordBreakerTest.exe “あいうえお”
PutWord buffer: あいうえお

諸般の事情により、分かち書きを行う DLL とテスト用の実行モジュールに分かれています。ソースコードは主に以下の情報を参考に作成しています。

IWordBreaker Interface
http://msdn.microsoft.com/en-us/library/ms691079(v=vs.85)

You toucha my letters, IWordBreaker you face (or, Language-specific processing, #3)
http://blogs.msdn.com/b/michkap/archive/2005/03/14/395199.aspx

補足 : 次のような情報もありますので、気になったらこれで確認してみましょう。

Windows Vista の検索において、語句が検索されない場合がある
http://support.microsoft.com/kb/952003

広告