2011-01-01から1年間の記事一覧

U+0000 - U+FFFF までをJavaで表記する方法

以下の方法で、表現可能 char c = '\u0000'; ... char c = '\uFFFF';例えば、すべての文字列を格納した文字列を作成した場合、以下のようにすれば良い StringBuilder str = new StringBuilder(); for (char c = '\u0000'; c str.append(c); }

正規化ルールのサンプル

サンプルプログラム String inputStr="№,㈱,㍻"; String outpuStr = Normalizer.normalize(inputStr,Normalizer.NFKC); System.out.println("入力文字列:"+inputStr); System.out.println("文字列長:"+inputStr.length()); System.out.println("-----"); Sys…

正規化のモード

Unicode正規化には、以下の4つのモードがある NFC NFD NFKC NFKD 検索エンジンで使用する場合は、"NFKC"を使用することが一般的。これは、検索漏れを起こさず、できるだけ高速に検索実施させたいためである。 検索速度より向上させるために Unicodeでは、”…

Unicode正規化を実施するためのモジュール

Unicodeの文字列を正規化する場合、便利がモジュールが2つある。 Javaで内包されているicu4jのモジュール 公式サイトからダウンロードできる最新版のicu4jのモジュール ライセンス問題などがない限り、基本的には後者をおすすめ。その理由は、以下の通り 最…