符号化文字基本集合 BUCS   
-International Basic Subset of UCS-


    みなさんは、日頃いくつぐらいの漢字を使っていますか?

  「常用漢字」は、1,945字ですね。ワープロで使われる第一水準が2,945字、第二水準が3,390字、合わせて6,355字です。もっとも、小学校で教える教育漢字は1,006字にすぎません。また、新聞などで使われるものは、だいたい5,000字くらいです。また、『大辞林』のような、大型の国語辞典で使われる漢字も、7,000字くらいです。

 私たち日本人が、漢字の字典をもっとも一生懸命に引くのは、自分の子供に名前を付けるときのようです。それでも、通常の漢和字典は多くて1万字を収めるにすぎません。(ただ、見出しの字はそんなにありません。異体字として、添記される字をすべて合わせると、1万字になるということです。)大型の漢字字典である『康煕字典』や『大漢和辞典』、さらに中国で近年刊行された『漢語大字典』は、5万字前後を収録していますが、実際に中身を見てみますと、半分近くが「読みも意味も不明」であったり、本来誤字とされたものがたくさん収録されています。

 ここで考えなければならないのは、日常生活の中で、「こうした大型の漢字字典を、いつも身近においていなければならないか?」ということです。むしろ、日常生活には、必要にして十分な小字典があれば事足ります。日常では小型の3,000字くらいの字典、もう少しほしい場合には8,000字くらいの中字典、を考えてはどうでしょうか。

 私たちが、「符号化文字基本集合」を作ろうとしたのは、そういう考えからです。現在、広く使われているISO/IEC 10646-1:2000には、BMP(基本多言語面)に20,902字とExtension A(6,582字)が収められています。さらに、Extension Bをあわせるとなんと約7万字になります。それらは、研究・学術上では多大な価値を持っていますが、日常生活には余りふさわしくありません。

 わたしたちは、そこでISO/IEC 10646-1:2000の中から、約8,000字を選び出して「符号化文字基本集合」とし、学会試行標準IPSJ-TS005:2002として公開することにしました。現在、国際提案中ですが、多くの方々のお役に立つことを期待しています。

『情報技術標準』No.57 P14 情報処理学会 情報規格調査会 2003.3 より



BUCS 詳細を見る