JIS2000/2004 情報

藤原隆男



2000年はじめに JIS X 0213:2000 いわゆる JIS2000 が発表されました。 JIS2000 では,従来の非漢字+第1水準+第2水準の計約 6800 字に加えて新たに約 4300 の文字が定義されました。 また,2004年には,第3水準における10文字の追加と第1水準・第2水準における168文字の例示字形の変更がありました (JIS X 0213:2004 いわゆる JIS2004)。
じつは,JIS2000 への対応は Unicode ベースでは進んでいました。 JIS2000 文字の Unicode への登録が完了したのが 2002 年なので,この時期以降に出た多くのフォントには JIS2000 の文字が含まれています。 また,Mac OSX や Windows2000/XP は OS レベルで Unicode に対応しているので,フォントとアプリケーションが対応していたら Unicode ベースで第3・第4水準などの JIS2000 文字を扱うことができます。 これらの文字は,アプリケーションが Unicode に対応していたら,手書き入力や Unicode によるコード入力で入力することができます。
ただし,シフトJISベースでは,これまでに使われていたシステム外字や各種外字のサポートを急にやめるわけにも行かないので, JIS90+独自システム外字 のままです (たとえば,シフトJIS のコード表を見ても,JIS2000 の配置にはなっていないので, シフトJIS のコード入力で JIS2000 の文字を入力することはできません)。
2007年1月発売の Windows Vista には JIS2004 に対応したフォントが搭載されたので,アプリケーションが対応すれば,JIS2004 の文字が使えるようになりました。 Vista では JIS2004 対応が前面に出されていますが,シフトJISでサポートするのは,相変わらず JIS90 のようです。

JIS2000の概要

JIS2004の概要


予備知識−漢字コード

漢字は,文字数が多いため2バイトで表現されます(「バイト」は半角文字1文字分のデータサイズです)。 それぞれの OS が独自に日本語化を行った結果,つぎのような漢字コードができてしまいました。
JIS
1文字を,英文と同じ7ビット文字2つで表すため,7ビットJISとよぶことがある。 電子メールで使われている ISO-2022-JP というのがこれ。
シフトJIS (SJIS)
MS-DOS を日本語化するときに(株)アスキーが作った規格で,Windows や Macintosh で使われている。 7ビットの英数文字と混在させるために,漢字コードを8ビット領域(欧文では特殊文字にあたる領域)にずらしてある。Windows98 以前や MacOS9 以前では,日本語の内部処理に使われている。
EUC-JP
UNIX でよく使われる漢字コード。Extended Unix Code の略。やはり8ビット化してある。
Unicode
世界中の大部分の言語を混在させることができるように開発された文字コード。 Windows 2000/XP/Vista や Mac OSX では,OS での内部処理に Unicode が使われている。
これらの漢字コードに割り当てられた漢字の表は,JIS78, JIS83, JIS90,JIS97 のように,何度か改訂されています。 これまでの改訂は,旧字体と新字体の入れ替え,若干の漢字の追加などにとどまっていましたが,今回の JIS2000/JIS2004 は大規模な改訂になります。


問題点

・JIS2000/2004 は,従来の文字コード (JIS,シフトJIS) のコード表に文字を割り当てる形で決められましたが,第3水準漢字を Windows や Mac のシステム外字領域に, 第4水準漢字を外字領域に割り当ててしまいました。 従って,シフトJISでは,第3水準漢字を使おうとするとシステム外字が,第4水準漢字を使おうとすると 外字フォントや外字を使用するアプリケーションが使えなってしまいます。 この問題を避けるため,Windows も Mac も,JIS2000/2004 には Unicode で対応しています。 従って,第3水準,第4水準の文字を扱うためには,Unicode (たとえば UTF-8) に対応したアプリケーションを使う必要があります。
・JIS2000 発表のさい,すでに第3水準・第4水準漢字の多くは Unicode に登録済みでしたが,Unicode に未登録の文字が数百ほど含まれていました。これらの文字の一部は申請どおり Unicode に登録されました (登録完了は2002年ごろ)。 ところが,一部の文字については,コード領域(基本面)が満杯になったため収録しきれず,補助面を使ったサロゲートペアと呼ばれる方法 で登録されました。 これらの文字は,サロゲートペアに対応した OS とフォントとアプリケーションが揃わないと使えません。 (Windows98/Me ではサロゲートペアが使えません。Windows2000 ではちょっと設定を変えると使えるようになります。)
サロゲートペア一覧 (Windows98/Me では使えません)
Unicode3.2文字一覧 (2002年に Unicode に登録された文字。古いフォントには含まれていません)

・アイヌ語表記用のカナなど一部の文字が,単一の文字ではなく,2文字の合成で表すことに なってしまいました。これらの文字も,OSとフォントとアプリケーションが対応していないと正しく表示できません。
合成文字一覧

・JIS2004 では,第1水準・第2水準のいくつかの文字の字形が,いわゆる旧字体に変更されました。そのため,JIS2004 以降の処理系では,それ以前と異なる字形の文字が表示・印刷される可能性があります。
JIS2004 で字形が変更された文字  (JIS2004 対応フォントを使うと,すべて旧字で表示されるはずです)

・細かい問題として,Windows が従来の字体との互換性のために Unicode の標準字形とは異なる字形を割り当てた文字ができてしまいました。よく知られた例が「波ダッシュ」です。Mac では本来の波ダッシュ(チルダ ~ と逆) になっていますが, Windows では全角チルダになります。同じ文字のはずなのに,波の形が Mac と Windows で逆になってしまいます。
 

フォント

おおむね 2002 年以降のフォントは JIS2000 の文字を含んでいます。たとえば Mac OSX に付属の「ヒラギノPro」が JIS2000 に対応しています。Windows では,XP の最近のバージョンや Word の最近のバージョンに付属のMSゴシック・MS明朝などは JIS2000 に対応しています (上で述べた理由で Unicode のみの対応です)。 JIS2004 には,Windows Vista に付属の「メイリオ」 で対応します。従来の MS明朝,MSゴシックも JIS2004 対応版が登場する予定です。
* Mac OSX の OpenType フォントは Windows XP と互換性がありますので,OSX 付属のヒラギノフォントを Windows で使うことは,技術的には可能です。

(注) 2007年1月のWindows Vista の発売に伴って,同じコードの文字の字体が異なるという問題を避けるため,Microsoft は JIS2004 対応フォント (書体は MS明朝,MSゴシック) の配付を開始しました。 Windows XP (SP2以上) にインストールすることができます。 インストールすると,MS書体が JIS2004 対応版に置き換えられて,Windows Vista と同じ字体が使えるようになります。

Windows XP 向け JIS2004対応フォントパッケージ ダウンロードサイト (Microsoft)


以下は,私が 「MS明朝」 に手を加えてつくった Windows 用の JIS2004 対応 TrueType フォントです。 JIS2004 対応のフォントをお持ちでない方は,よろしければお使いください。

min2004_ttf  (明朝2004,Unicode)
min2004p_ttf  (明朝2004P,Unicode)

* 以下は,シフトJIS版です(外字領域にも文字を含みます)。 Windows98 以降では,インストールすることはお勧めできません。
min2004g_ttf  (明朝2004,シフトJIS)
min2004gp_ttf  (明朝2004P,シフトJIS)
注意: 上のフォントでは,従来の文字に対して「MS明朝」のフォントデータをそのまま使っています。 著作権上問題がありますので,あくまでも JIS2000/2004 が普及するまでのつなぎとしての個人的利用にとどめてください。 決してばらまかないでください。


資料−字形サンプル

フリーの habian というフォントによる字形のリストです。黄色の部分が JIS2000 で追加された文字です。
また,赤で囲った文字が,JIS2004で追加された10文字です。薄い赤はJIS2004で字形の変更があった文字です。

JIS2000
JIS2004

JIS コード順 (1-, 2- はプレーン番号)
1- 2121〜1-2F7E (1区〜15区)
1- 3021〜1-3F7E (16区〜31区) (第1水準)
1- 4021〜1-4F7E (32区〜47区) (第1水準)
1- 5021〜1-5F7E (48区〜63区) (第2水準)
1- 6021〜1-6F7E (64区〜79区) (第2水準)
1- 7021〜1-7E7E (80区〜94区) (第2水準,第3水準)
2- 2121〜2-747E (2面 1区〜84区) (第4水準)
2- 7521〜2-7E7E (2面 85区〜94区) (第4水準)

JIS コード順 (1-, 2- はプレーン番号,図中の赤字は区)
1-2121〜1 -2F7E (1区〜15区)
1-3021〜1 -3F7E (16区〜31区) (第1水準)
1-4021〜1 -4F7E (32区〜47区) (第1水準)
1-5021〜1 -5F7E (48区〜63区) (第2水準)
1-6021〜1 -6F7E (64区〜79区) (第2水準)
1-7021〜1 -7E7E (80区〜94区) (第2水準,第3水準)
2-2121〜2 -747E (2面 1区〜84区) (第4水準)
2-7521〜2 -7E7E (2面 85区〜94区) (第4水準)
シフトJISコード順
8140〜87FC
8840〜8FFC
9040〜97FC
9840〜9FFC
E040〜E7FC
E840〜EFFC(第 2水準,第3水準)
F040〜F7FC (第4水準)
F840〜FCFC (第4水準)
シフトJISコード順
8140〜87FC
8840〜8FFC
9040〜97FC
9840〜9FFC
E040〜E7FC
E840〜EFFC(第 2水準,第3水準)
F040〜F7FC (第4水準)
F840〜FCFC (第4水準)

資料−一覧表

JIS2004 の文字コード (句点,JIS,シフトJIS,Unicode) と Unicode による文字表示例のリストです (HTML形式, earthian@tama.or.jp さんのデータを利用)。JIS2004 対応フォントを使うと表示できます。
jisx0213-2004.html … プロポーショナルフォント用
jisx0213-2004-mono.html … 等幅フォント用

・表のうち Unicode が U+xxxx+xxxx と書かれた文字は合成文字です。フォントが対応していないと正しく表示されません。
・表のうち Unicode  が U+2xxxx [Unicode 3.1] と書かれた文字はサロゲートペアです。フォントとアプリケーションが対応していないと正しく表示されません。
・表のうち [Unicode 3.2] と書かれた文字は,フォントが対応していないと表示されません。


2000/09, 2007/01 T. Fujiwara