|
本帖最后由 liucqa 于 2013-4-10 23:58 编辑
什么是CJK:
中日韩统一表意文字(CJK Unified Ideographs),目的是要把分别来自中文、日文、韩文、越文中,本质、意义相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。CJK 是中文(Chinese)、日文(Japanese)、韩文(Korean)三国文字的缩写。顾名思义,它能够支持这三种文字。实际上,CJK 能够支持在 LaTeX 中使用包括中文、日文、韩文在内的多种亚洲双字节文字。
《CJK统一汉字编码字符集》— 国家标准 GB13000.1 是完全等同于国际标准《通用多八位编码字符集 (UCS)》 ISO 10646.1。
《GB13000.1》中最重要的也经常被采用的是其双字节形式的基本多文种平面。在这65536个码位的空间中,定义了几乎所有国家或地区的语言文字和符号。其中从0x4E00到 0x9FA5 的连续区域包含了 20902 个来自中国(包括台湾)、日本、韩国的汉字,称为 CJK 汉字。CJK 是《GB2312-80》、《BIG5》等字符集的超集。
CJK基本 [4E00-9FFF] 20992码位 实际20940字
CJK扩展A [3400-4DBF] 6592码位 实际6582字
CJK扩展B [20000-2A6DF] 42720码位 实际42711字
CJK扩展C [2A700-2B73F] 4159码位 实际4149字
CJK扩展D [2B740-2B81F] 224码位 实际222字
CJK兼容扩展 [2F800-2FA1F] 544码位 实际542字
CJK部首扩展 [2E80-2EFF] 128码位 实际115字
CJK康熙部首 [2F00-2FDF] 224码位 实际214字
CJK笔画 [31C0-31EF] 48码位 实际36字
CJK兼容 [F900-FAFF] 512个码位 实际477字
PUA(GBK) [E815-E86F] 90个码位 实际80字
PUA部件扩展 [E400-E5FF] 511个码位 实际452字
PUA缺字增补 [E600-E6BF] 191个码位 实际185字
看着这个字符编码集合,判断汉字真是一件不容易的事情
在WORD上只要在字后按复合键ALT+X,都会显示该字编码
一般所说的 一~龥 指的范围是CJK统一汉字(不过少了最后的几个偏旁),龥 9FA5
一~﨩 指的范围是CJK统一汉字+专用区+cjk兼容汉字, 﨩 FA29
一 4E00
扩展字库:
http://ishare.iask.sina.com.cn/f/15177958.html
|
评分
-
1
查看全部评分
-
|