以下是引用nbcgm在2006-9-5 22:27:00的发言:一个想法:
在统计某篇文章的词频时,另外提供一个词库文档(如count.txt或count.doc),内容及格式为: 吴三桂 李自成 山海关 吴襄 ……
只统计该篇文章中出现的上述词(字)频,不统计其它词(字)的频次。 谢谢孔兄的回复。我想至少有以下几个办法实现上述目标: 1、用要统计词频的词库文件,作格式转换后,临时性替换掉微软拼音输入法词库文件,然后就可以用孔兄编的上述代码来执行统计。这里的主要难点是,微软拼音输入法词库文件的格式如何,用何种编辑器来编辑该文件。可能要到一些输入法论坛去找找有关资料和线索。 2、在孔兄编的上述代码中,指定某种自编输入法的词库,代替缺省的微软拼音输入法词库文件。而自编输入法的词库文件可用操作系统附件中自带的输入法生成器来制作。若能直接指定文本格式的词库文件,则为更彻底的解决办法,但恐怕文本格式的词库文件不符要求。 3、使用查找替换功能,每执行一次,会显示成功替换的数量,即为该词词频。可是若要统计词频的词一多,这种方法显然较复杂。一种可考虑的编程策略是,利用WORD每次查找替换结束后都会显示结果信息框的特点,让WORD执行一个查找替换的批处理,替换批处理的内容为指定的词库文档(如count.txt或count.doc),结果是让WORD集中输出执行结果。 可惜,我不懂VBA。上述想法只是从我的知识范围提出的,很可能不对,本人更是无法独立地实现。只能求教、求助于孔兄及诸位高人。
[此贴子已经被作者于2006-9-6 19:55:31编辑过] |