2008年11月29日土曜日

今更 Google Chrome

話題としては旬が過ぎた感もあるが Google Chrome の中のマニアックな話。

文章を単語に区切るライブラリと言えば、日本語では mecabchasen であるが、より世界標準なのは icu ライブラリの BreakIterator (C, C++, Java) である。しかしながら、 BreakIterator による日本語の分割は、単に文字種だけに基づくもので、とてもまともだとは言えなかった。

…と思っていたら、先日発表された Google Chrome に含まれている libicu は、これにパッチ (segmentation.patch.txt) が当たっていて IPA 辞書などをベースにするように改善されているようだ。

これで sqlite の fts3 の icu tokenizer が実用レベルになるらしい。

0 件のコメント: