2008年11月29日土曜日

今更 Google Chrome

話題としては旬が過ぎた感もあるが Google Chrome の中のマニアックな話。

文章を単語に区切るライブラリと言えば、日本語では mecabchasen であるが、より世界標準なのは icu ライブラリの BreakIterator (C, C++, Java) である。しかしながら、 BreakIterator による日本語の分割は、単に文字種だけに基づくもので、とてもまともだとは言えなかった。

…と思っていたら、先日発表された Google Chrome に含まれている libicu は、これにパッチ (segmentation.patch.txt) が当たっていて IPA 辞書などをベースにするように改善されているようだ。

これで sqlite の fts3 の icu tokenizer が実用レベルになるらしい。

2008年11月19日水曜日

懲役@みなとみらい

横浜みなとみらいでプロジェクトの出展手伝い。
ママチャリで行ったら 20km/h の皮算用に対して実効速度は 16km/h であった。
写真は本文とあまり関係ありません。

2008年11月1日土曜日

世界的に既出な気もするが

赤壁って Red Wall じゃないのか。ふむむ。