不好意思了,非常不好意思。向守柔老师致谦。此论坛我是初来乍到,唐突夫子,做检讨。想必是我操作失误。还望守柔老师不以为嫌,乐意解答我的问题。向kongss版主致敬! 关于数据库的话,这个比较麻烦了,关健是面对一个任意文本,并不知道它是否含有超出此数据库的词,这个库就要足够的大,但大到何种程度,界限又是模糊的,找都没法找。并且英语有动名形副的变化形式,再大的数据库也无能为力---大概是这样吧,----如果是,事实上这一途怕就是走不通。 我想我的要求还是清晰的,就是找出那些通用单词。你现在这个程序已经很有效,能区分出一个个貌似单词的东东,这些东东至少80%以上它就是单词,它比数据库有天然的优势,即开放性,不必界定一个个的具体的词。它已经相当一个大到无限的“库”。现在只要改进一下即可,在这个基础上加几行,挑出不符合条件的假词。 1,全挑出上面讲过了,有困难。现在的思路是挑出一部分算一部分,在可能的限度内减少误差。利用文内(句首外,即句号之后的位置)专有名词首字母大写的特征来筛选至少在理论上应当是可行的。这些词当然并非都是专有名词,但此误差可忽略,或就把它忽略。关健是技术上有困难吗?这个我就不知道了。 2,不光是上面的问题,还要加一个问题。昨天忘写了。即动形副名-词的变化问题,这个因素在重复统计上应当起着相当大的干扰作用。从新概念的统计结果看出,这两个因素(不知还有没有其它的我没考虑到)加起来使统计结果的误差达到了总量的1/4强。还是遵循“挑一部分算一部分在可能限度内减误差”的原则。当然也要考虑麻烦的问题,这个因素要考虑多少就取决于编写者了,呵呵。至少规则变化的那些在理论上是可以挑出的。即:某一词如只比其它部分某一个已计数的词在最后位置加了ed,er,est,则将其不计数。名词要敏感一些,因只比前面某个词多加一个s的词它可能是另一个词的可能性要大些。这里实际是一个误差概率的比较取舍问题。统一一下,4项都算吧,即比其它部分某一个已计数的词在最后位置加了ed,er,est,或s则将其不计数。另名词的不规则变化我觉得可以考虑进去,即加es的情况,因它前面只有5种情况:s,sh,ch,x,o。 其实这个问题如果要在理论上深究下去,还是很有意思的。如可以结合构词知识设定什么情况下加ed,er等,当然这也相当麻烦。这里我个人就不提要求了。 加几行吧,哈,麻烦了。 个人觉得可以用这个思路编一个实用软件,这个软件由两部分构成,一个就是现在已有的部分,叫粗略计数,它测出的是词汇量上限,快。另一个就是现在讨论的要改进的部分,测出的是---要想说测出的是下限可能还要加上一些条件。这个慢一些。两者结合即可估定一个文档的词汇量。我就serve as its first user吧。ha
[此贴子已经被作者于2007-2-1 18:00:18编辑过] |