話題としては旬が過ぎた感もあるが Google Chrome の中のマニアックな話。
文章を単語に区切るライブラリと言えば、日本語では mecab や chasen であるが、より世界標準なのは icu ライブラリの BreakIterator (C, C++, Java) である。しかしながら、 BreakIterator による日本語の分割は、単に文字種だけに基づくもので、とてもまともだとは言えなかった。
…と思っていたら、先日発表された Google Chrome に含まれている libicu は、これにパッチ (segmentation.patch.txt) が当たっていて IPA 辞書などをベースにするように改善されているようだ。
これで sqlite の fts3 の icu tokenizer が実用レベルになるらしい。
2008年11月29日土曜日
2008年11月19日水曜日
2008年11月1日土曜日
登録:
投稿 (Atom)