大家知道汉字是方块字,可以由点阵、曲线来显示,最常见的显示点阵是16×16和24×24,大家看看手机传呼上的字就很容易理解。计算机在保存显示汉字时分两步,先是将汉字转换为由1234567890ABCDEF这十六个符号组成的编码,这些编码就是显示字库的索引,看到一个编码,就从字库里找到这个汉字的图形显示出来。比如“北”字编码为B3B3,等等,完全是人为规定的,国家标准GB2312就这样出台了。GB2312,全称GB2312-80《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆,新加坡等地也使用此编码。GB2312收录简化汉字及符号、字母、日文假名等共7445个图形字符,其中682个符号(第01-09区)、6763个汉字(第16-87区)。
汉字进入电脑,曾经是一个世界性难题,最难的原因之一就在于输入。上世纪七八十年代,世界上不少文字学家断言,方块汉字将被电脑文明所淘汰。在此背景下,产生的国标GB2312含字较少似乎是不得已而为之了。
BIG5是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵,但广泛应用于电脑行业,尤其是互联网中,从而成为一种事实上的行业标准。BIG5收录13461个汉字和符号,其中符号408个、常用字5401个、次常用字7652个。
为了解决这些问题,以及配合UNICODE的实施,全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》,即GBK,俗称“大字符集”。GBK共收入21886个汉字和图形符号,包括:GB2312中的全部汉字、非汉字符号,BIG5中的全部汉字,GB13000中的其它CJK汉字(以上合计20902个汉字),其它汉字、部首、符号(共计984个)。
GBK规范收录了ISO 10646.1中的全部CJK汉字和符号,并有所补充。具体包括:GB 2312中的全部汉字、非汉字符号;GB 13000.1中的其他CJK汉字。以上合计20902个GB化汉字;《简化总表中》未收入GB 13000.1的52个汉字;《康熙字典》以及《辞海》中未被收入GB 13000.1的28个部首及重要构件;13个汉字结构符;BIG-5中未被GB 2312收入、但存在于GB 13000.1的139个图形符号;GB 12345增补的6个拼音符号;GB 12345增补的19个竖排图形符号(GB 12345较GB 2312增补竖排标点符号29个,其中10个未被GB 13000.1收入,故GBK亦不收);从GB 13000.1的CJK兼容区挑选出的21个汉字;GB 13000.1收入的31个IBM OS/2专用符号。GBK亦采用双字节表示,总体编码范围为0x8140~0xFEFE之间,首字节在0x81~0xFE之间,尾字节在0x40~0xFE之间,剔除0x××7F一条线,总计23940个码位,共收入21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。一般看来,“大字符集”是一个愚蠢的“国家标准”,严重重码,说它误国误民也不为过。人名专用汉字字符集是一个比GBK更加愚蠢的东西,略过不提。
1997年,邓小平去世的时候,CCTV早间新闻上,治丧委员会中的很多字是用拼音来代替的,到了晚上新闻就都显示汉字了。为什么? 边写边改,正在继续
[此贴子已经被作者于2004-10-18 11:52:20编辑过] |