|
或是最让人放心的汉字笔画序库
(与之配套的排序工具详见二楼)
一、主要用途
列出了GB13000.1中20902个汉字按笔画序排列的顺序,为按“姓氏笔画排序”、“姓名笔画排序”等提供依据。
二、为什么让人放心
因为其排列的顺序与国家公布的最新规范一致(除修改了两个明显的排列错误外)。
三、最新的规范是什么
先介绍一下三个相关的规范:
1、《现代汉语通用字笔顺规范》:1997年国家语言文字工作委员会和新闻出版署联合发布,给出了7000个通用字的笔顺。(以下简称《通用字笔顺规范》)
2、《GB13000.1字符集汉字字序(笔画序)规范》:1999年国家语言文字工作委员会发布,给出了GB13000.1中20902个汉字的笔顺。(以下简称《笔画序规范》)
3、《GB13000.1字符集汉字部首归部规范》:2009年教育部和国家语言文字工作委员会发布,给出了20902个汉字的部首归部。(以下简称《部首归部规范》)
单从规范名称上来看,《笔画序规范》应该最新的标准,不过,仔细研读《部首归部规范》,里面有这样两段话。“1 范围 …… 本规范适用于中文信息处理领域汉字排序检索,也可供辞书编撰和汉字教学参考”;“6.3 为方便检索,本规范在附录A(资料性附录)中给出了归部表的笔画序检索表。该表遵照《GB13000.1字符集汉字字序(笔画序)规范》排序……”。
《笔画序规范》在公布后的十多年内被众多专家、网友检查出很多错误,例如“桒、鵖、鵡”等字,而这些字在《部首归部规范—附录A》中都得到了修正。《部首归部规范—附录A》虽然没有给出汉字的具体笔顺,仅仅列出列出了排列的先后,但这用于“姓氏笔画排序”、“姓名笔画排序”等方面就已经足够了。
故选择《部首归部规范—附录A》作为验证的规范。
四、怎样确保与《部首归部规范—附录A》一致(凭什么让人放心)
经过反复实践,总结了一个效率和正确率都高的方法:就是将已经排列好的笔画序库,按《部首归部规范—附录A》的格式排版好(往左偏一个字),然后打印在《部首归部规范—附录A》上,然后逐个核对。(在最终定稿后还核对了一次,以确保正确性)
当然,因为个人能力的原因没有逐个校对每个汉字的笔顺,可能个别字的笔顺是错误的,但可以肯定一点,这些错误不会影响排序。
五、整理过程简介
整理过程花了两个月的时间,其中走了不少弯路(弯路中也有收获)。
一开始的想法是DIY一个笔画序库,因为偶然发现QQ拼音(版本号3.3.881.400)中有个小字典中可以将最多25个字粘贴进去,拼音、笔画拆分瞬间就出来了,并且还可以很方便的复制出来。于是利用键盘鼠标录制回放器将7170个汉字(7000个通用汉字和GB2312中6763个汉字的并集)的笔画弄出来,再与以前收集的其它笔顺库包括与Excel的按笔画排序功能进行比对,其中笔顺不一样的字用《笔画序规范》进行验证,最后将其中笔顺相同的241组535个字用《部首归部规范—附录A》确定先后顺序。
DIY好了后,且准备上网发帖的时候,发生了一个有趣的事,以前在网上不管怎么找都找不到一个比较权威的汉字笔画库,可当我DIY好了后,抱着试一试的心理,又搜了一下,这一次,在百度文库中找了一个TXT格式的《笔画序规范》。这个TXT格式的文件与图片版的虽然有一些差异,但看上去很规范,内容还比《笔画序规范》还要充实。
于是,我就以这个TXT格式的《笔画序规范》为基础,开始了新一轮的校对(这轮校对过程保留在附件中)。
六、发现的一些常见问题
1、Excel按笔画排序的问题(只验证了2003和2007,两个版本排序相同)。Excel可以按笔画进行排序(相同笔画数的不按笔顺排序),但针对GB13000.1字库存在了200个左右的错误,包括了“与之及以巨歺印巫叟彪描歌”等常用字。大家可以把笔画序库以汉字为关键字按笔画排序就可以发现。
2、1999年的《笔画序规范》中包含了1997年的《通用字笔顺规范》,其中个别字的顺序进行了调整。例如“卫”和“子”这两个字,在《通用字笔顺规范》中,“卫”排在“子”的前面(第4页),而在《笔画序规范》中,“子”排在了“卫”的前面(字序132、134),这两个字在姓名中出现率很高,很多排序工具都没有按新规范。
3、很多网站提供了笔画查询功能,其中也有很多错误,附件中QQ拼音错的,这些网站大多数都错,就连“字”这个字都错(第二笔)。
七、扩充至GBK
GBK比GB13000.1多收录了101个汉字,其中10个与GB13000.1中“长相”相同(或类似),69个可以通过“组合”得到,22个可以通过“分解”得到。得到汉字笔顺编码后,有24个字笔顺与GB13000.1中相同,通过与GB13000.1中笔形、结构类似的字来及汉字字序定序规则(见《笔画序规范》)确定其排序。
附件中列出了这101个字,不过因为没有相关的国家标准或规范来验证,我没有将其收录进去,如果您需要,请先核对一下(1、分解组合的方法,2、笔顺编码汉字的排序),合并后按笔画数、笔顺编码、ID三个关键字升序排序即可。(ID的作用是确定相同编码的字的排序)
八、部分参考资料的下载地址
《通用字笔顺规范》:新浪爱问,pdf格式
http://ishare.iask.sina.com.cn/f/7666709.html
《笔画序规范》:中国语言文字网,gif格式
http://www.china-language.gov.cn ... /zfjhzzx/gfbz30.htm
用“小说下载阅读器”下载这个比较方便,先复制网址,然后返回“小说下载阅读器”,直接点新增(左上角第一个),输入小说名称(不输也行),点确定即可。下载后还可以制成chm等格式文件方便阅读。
《部首归部规范》含(附录A):教育部,pdf格式
http://jianfeizx.cn/edoas/websit ... id=1254119792102795
《笔画序规范》:百度文库,txt格式
http://wenku.baidu.com/view/896bc68583d049649b66587f.html
笔画序库主要在这个txt文件的基础上进行了修改,在校对的过程中发现的错误极少,在此向mystlone(百度文库中的发帖者)致敬。
[ 本帖最后由 iaiexcel 于 2010-11-16 10:25 编辑 ] |
评分
-
3
查看全部评分
-
|