汉字转拼音首字母，自定义函数，多方案对比

vitrel · 发表于 2018-6-30 14:47

本帖最后由 vitrel 于 2018-6-30 16:09 编辑

用VBA编写快速录入、模糊查询类的代码时，经常都需要将汉字转换为拼音首字母。
可惜的是，Excel没有为我们提供现成的解决办法。
我能想到的其中一个原因就是，汉字有多音字的情况，这令微软也无所适从。

以下为大家提供五套将汉字转换为拼音首字母的方案，并提供代码汇总供大家比较，
每套方案，各有优缺点，大家可以根据自己的实际情况选用：
（最优方案是第四、第五套，分别在5、6楼）

vitrel · 发表于 2018-6-30 14:48

本帖最后由 vitrel 于 2018-6-30 16:11 编辑

方案一（误码率极高，不推荐）

Function PyA$(hzpy$)
Dim hzstring As String, pystring As String
Dim hzpysum As Integer, hzi As Integer, hzpyhex As Integer
hzstring = Trim(hzpy)
hzpysum = Len(Trim(hzstring))
pystring = ""
For hzi = 1 To hzpysum
hzpyhex = "&H" + Hex(Asc(Mid(hzstring, hzi, 1)))
Select Case hzpyhex
Case &HB0A1 To &HB0C4: pystring = pystring + "A"
Case &HB0C5 To &HB2C0: pystring = pystring + "B"
Case &HB2C1 To &HB4ED: pystring = pystring + "C"
Case &HB4EE To &HB6E9: pystring = pystring + "D"
Case &HB6EA To &HB7A1: pystring = pystring + "E"
Case &HB7A2 To &HB8C0: pystring = pystring + "F"
Case &HB8C1 To &HB9FD: pystring = pystring + "G"
Case &HB9FE To &HBBF6: pystring = pystring + "H"
Case &HBBF7 To &HBFA5: pystring = pystring + "J"
Case &HBFA6 To &HC0AB: pystring = pystring + "K"
Case &HC0AC To &HC2E7: pystring = pystring + "L"
Case &HC2E8 To &HC4C2: pystring = pystring + "M"
Case &HC4C3 To &HC5B5: pystring = pystring + "N"
Case &HC5B6 To &HC5BD: pystring = pystring + "O"
Case &HC5BE To &HC6D9: pystring = pystring + "P"
Case &HC6DA To &HC8BA: pystring = pystring + "Q"
Case &HC8BB To &HC8F5: pystring = pystring + "R"
Case &HC8F6 To &HCBF9: pystring = pystring + "S"
Case &HCBFA To &HCDD9: pystring = pystring + "T"
Case &HEDC5: pystring = pystring + "T"
Case &HCDDA To &HCEF3: pystring = pystring + "W"
Case &HCEF4 To &HD1B8: pystring = pystring + "X"
Case &HD1B9 To &HD4D0: pystring = pystring + "Y"
Case &HD4D1 To &HD7F9: pystring = pystring + "Z"
Case Else
pystring = pystring + Mid(hzstring, hzi, 1)
End Select
Next
PyA = pystring
End Function

复制代码

方案一的原理是用Asc()函数返回字符的ANSI代码，再根据ANSI代码划分区间，以确定汉字的拼音首字母。
此类方案在使用时，大部分结果还是正确的，但遇到部分汉字，如“庵飚邸窦笃梵芙缑崮皓泓桦晖葭婕瑾泾璟焗徕岚崂璘蔺楠腩岐茜倩榕佘韬婷薇炆雯解鑫娅闫奕懿瑜昱钰媛芸翟喆梓昊……”，结果就出错了。
究其原因，就是ANSI代码在制定时，确实有大部分的汉字都是按拼音为排序依据的，
但后来又补充了相当一部分汉字，补充进去的汉字是不可能再插进原来的汉字之间的，只能给它们分配新的编号。因此单纯地以ANSI代码编号来划分拼音区间，必然导致误码极高。因此并不推荐使用。

vitrel · 发表于 2018-6-30 14:48

本帖最后由 vitrel 于 2018-6-30 16:12 编辑

方案二（误码率还是高，不推荐）：

Function PyB(hanzi)
Dim i%
Dim tmp As Long
Dim char$, getpychar$, OK$
For i = 1 To Len(hanzi)
char = Mid(hanzi, i, 1)
tmp = 65536 + Asc(char)
If (tmp >= 45217 And tmp <= 45252) Then getpychar = "A"
If (tmp >= 45253 And tmp <= 45760) Then getpychar = "B"
If (tmp >= 45761 And tmp <= 46317) Then getpychar = "C"
If (tmp >= 46318 And tmp <= 46825) Then getpychar = "D"
If (tmp >= 46826 And tmp <= 47009) Then getpychar = "E"
If (tmp >= 47010 And tmp <= 47296) Then getpychar = "F"
If (tmp >= 47297 And tmp <= 47613) Then getpychar = "G"
If (tmp >= 47614 And tmp <= 48118) Then getpychar = "H"
If (tmp >= 48119 And tmp <= 49061) Then getpychar = "J"
If (tmp >= 49062 And tmp <= 49323) Then getpychar = "K"
If (tmp >= 49324 And tmp <= 49895) Then getpychar = "L"
If (tmp >= 49896 And tmp <= 50370) Then getpychar = "M"
If (tmp >= 50371 And tmp <= 50613) Then getpychar = "N"
If (tmp >= 50614 And tmp <= 50621) Then getpychar = "O"
If (tmp >= 50622 And tmp <= 50905) Then getpychar = "P"
If (tmp >= 50906 And tmp <= 51386) Then getpychar = "Q"
If (tmp >= 51387 And tmp <= 51445) Then getpychar = "R"
If (tmp >= 51446 And tmp <= 52217) Then getpychar = "S"
If (tmp >= 52218 And tmp <= 52697) Then getpychar = "T"
If (tmp >= 52698 And tmp <= 52979) Then getpychar = "W"
If (tmp >= 52980 And tmp <= 53688) Then getpychar = "X"
If (tmp >= 53689 And tmp <= 54480) Then getpychar = "Y"
If (tmp >= 54481 And tmp <= 62289) Then getpychar = "Z"
'以下是自行添加的例外字
If char = "庵" Then getpychar = "A"
If char = "飚" Then getpychar = "B"
If char = "邸" Then getpychar = "D"
If char = "窦" Then getpychar = "D"
If char = "笃" Then getpychar = "D"
If char = "梵" Then getpychar = "F"
If char = "芙" Then getpychar = "F"
If char = "缑" Then getpychar = "G"
If char = "崮" Then getpychar = "G"
If char = "皓" Then getpychar = "H"
If char = "泓" Then getpychar = "H"
If char = "桦" Then getpychar = "H"
'……此处省略
If char = "(" Then getpychar = "("
If char = ")" Then getpychar = ")"
OK = OK + getpychar
Next i
PyB = OK
End Function

复制代码

方案二所用的原理及代码与方案一相同，只是代码中加入了修正部分，
将“能找到”的特殊字，如上面提到的“庵飚邸窦笃梵芙缑崮皓泓桦晖葭婕瑾泾璟焗徕岚崂璘蔺楠腩岐茜倩榕佘韬婷薇炆雯解鑫娅闫奕懿瑜昱钰媛芸翟喆梓昊”都加进代码，
因此，方案二的准确率确实比方案一有所提升。
问题是，所谓的“特殊字”有太多太多了，能全部都加进代码吗？
所以，方案二的误码率还是相当高的。

PS：可能是由于出现时间最早的原因，网上还有大量代码利用此原理，将汉字转换为拼音、拼音首字母。
直到今天，此类方案还经常在此论坛上出现。
我可以很负责地告诉大家，凡是根据ANSI代码编号来划分拼音区间的方案都会造成转换效果大量误码，绝不推荐大家再使用。
也希望论坛的高手们，不要再将此法推荐给新手们。

vitrel · 发表于 2018-6-30 14:49

本帖最后由 vitrel 于 2018-6-30 15:03 编辑

方案三（可以使用）：

Function PyC$(str$) '获取拼音首字母,适用于简繁体汉字和各语系的计算机
Dim spy$, n&, i&, s$
spy = Worksheets("PyC数据").[A1].Value '保存Unicode中20902个汉字的拼音首字母,顺序一一对应
For i = 1 To Len(str)
s = Mid(str, i, 1)
n = AscW(s) '获取汉字的Unicode编码
If n < 128 And n > 0 Then
PyC = PyC & s '非汉字,直接输出
Else
If n < 0 Then n = n + 65536
n = n - 19967 '汉字的Unicode编码是从19968开始的
PyC = PyC & Mid(spy, n, 1)
End If
Next
End Function

复制代码

为了解决上述两套方案的误码率，有位高手想出了一个办法，
就是将“所有”汉字（共20902个）的拼音首字母按照汉字的Unicode编码顺序，一一记录在Excel文档中，
代码运行时便能准确地“查找”出汉字所对应的拼音首字母。
此方案代码看上去简单，但在工作表“PyC数据”的A1单元格里，存放了20902个拼单首字母。

优点：代码原理简单直白，只要作者在制作这20902个对应的拼音首字母时没有出错的话，
在不考虑多音字的情况下，函数的结果应该是100%准确的。
缺点：工作簿多出了21K的内容。

vitrel · 发表于 2018-6-30 14:49

本帖最后由 vitrel 于 2018-6-30 16:24 编辑

方案四（推荐使用）：

Function Py$(ByVal rng$)
Dim i%, pyArr, str$, ch$
pyArr = [{"吖","A";"八","B";"攃","C";"咑","D";"妸","E";"发","F";"旮","G";"哈","H";"丌","J";"咔","K";"垃","L";"妈","M";"乸","N";"噢","O";"帊","P";"七","Q";"冄","R";"仨","S";"他","T";"屲","W";"夕","X";"丫","Y";"帀","Z"}]
str = Replace(Replace(rng, " ", ""), "　", "") '去空格和Tab
For i = 1 To Len(str)
ch = Mid(str, i, 1)
If ch Like "[一-龥]" Then '如果是汉字，进行转换
Py = Py & WorksheetFunction.Lookup(Mid(str, i, 1), pyArr)
Else
'Py = Py & UCase(ch) '如果不是汉字，直接输出
End If
Next
End Function

复制代码

或：

'注意：本函数须配合声明中的“Option Compare Text”使用
Function Pyy$(ByVal rng$)
Dim i%, k%, str$, ch$
str = Replace(Replace(rng, " ", ""), "　", "") '去空格和Tab
For i = 1 To Len(str)
k = 1
ch = Mid(str, i, 1)
If ch Like "[一-龥]" Then '如果是汉字，进行转换
Do Until Mid("八攃咑妸发旮哈丌丌咔垃妈乸噢帊七冄仨他屲屲屲夕丫帀咗", k, 1) > ch
k = k + 1
Loop
Pyy = Pyy & Chr(64 + k)
Else
'Pyy = Pyy & UCase(ch) '如果不是汉字，直接输出
End If
Next
End Function

复制代码

介绍此方案原理前，我先举个例子。
Excel具有对单元格内容进行排序的功能（基本上用过Excel的人都用过此功能），此功能也适用于汉字，
而Excelc对汉字的排序的依据的顺序是：先按声母、再按韵母、再按声调、以上相同的再按笔划顺序等。
既然Excel有此功能，那么方案五的的思路就是，将“所有”汉字（共20902个）在Excel的单元格内进行一次排序，
然后找到每个拼音区域所对应的第1个汉字，如A区域的第1个汉字是“吖”，B区域的第1个汉字是“八”……
这23个（不是26个，因为I、U、V都没有对应汉字）汉字找准了以后，
那么只要你随便举例一个汉字，如“爱”，Excel排序时肯定会将它排在“吖”和“八”中间，那么就可以确定“爱”的拼音首字母是“A”。方案四中的两套代码，都是利用这个原理所编写，
其关键在于找准这23个关键汉字“吖八攃咑妸发旮哈丌咔垃妈乸噢帊七冄仨他屲夕丫帀咗”，以准确划分拼音首字母区间。
Excel的单元格排序算法是经过千锤百炼、优中选点出来的，速度跟准确率都是毋庸置疑的，因此利用此原理所编写的代码，准确率也是100%的（不考虑多音字）。

优点：代码简单，只有短短几行，移植容易；不考虑多音字的话结果100%准确。
缺点：适用于Excel2007~2016，不适用于Excel2003（Excel2003的单元格排序对汉字支持不好，算法有误差），WPS未验证过。

补充一下：网上也曾出现过类似的方案，但因为没有找准A~Z这23个区域所对应的第1个汉字，因此代码思路虽正确，但结果会有误码。而本方案两例子中的23个汉字“吖八攃咑妸发旮哈丌咔垃妈乸噢帊七冄仨他屲夕丫帀咗”，是我在多个版本的Excel中穷举所有汉字后再排序（Excel2007~2013的排序结果都一字不差）所得到的，如果您所用代码并非使用这23个关键字的话，就说明划分的区间不完全准确，函数如果就必然存在误码，请注意。

vitrel · 发表于 2018-6-30 14:50

本帖最后由 vitrel 于 2018-6-30 15:10 编辑

方案五（推荐使用）：

论坛高手贡献出来的一套“汉字转拼音的完美解决方案”（http://club.excelhome.net/thread-229924-1-1.html）。
原理是从微软自家的微软拼音输入法中直接提取汉字所对应的拼音全码（可带声调或不带声调）或拼音首字母。

优点：经过高手的多次的完善，效果近乎完美，还支持多音字，是汉字转拼音全码的最优方案。
缺点：（鸡蛋里挑一下骨头），系统要预装微软拼音输入法（针对Win8.1、Win10要用特殊办法安装，高手的贴子上都有提到）；代码还是蛮多的，如果只用来转拼音首字母的话，有点牛刀杀鸡的感觉。

yylucke · 发表于 2018-6-30 15:02

我自己在用的
On Error Resume Next
Const hanzi = "啊芭擦搭蛾发噶哈击喀垃妈拿哦啪期然撒塌挖昔压匝ABCDEFGHJKLMNOPQRSTWXYZZ"
Dim i As Long, j As Byte, temp As String
For i = 1 To Len(R)
      For j = 1 To 24
         If Asc(Mid(R, i, 1)) >= Asc(Mid(hanzi, j, 1)) Then temp = Mid(hanzi, 23 + j, 1)
      Next j
PinYin = PinYin & temp
Next
PinYin = UCase(PinYin)

thzss · 发表于 2018-6-30 15:29

可以有选择性地使用

vitrel · 发表于 2018-6-30 15:44

yylucke 发表于 2018-6-30 15:02
我自己在用的
On Error Resume Next
Const hanzi = "啊芭擦搭蛾发噶哈击喀垃妈拿哦啪期然撒塌挖 ...

朋友，抱歉地跟您说句，
我拿您的代码跟我方案四的代码对比过运行结果，结果相差甚远，
您代码的运行结果不仅有很多汉字出不来结果，就算出来的结果也有极多是误码，
我提供文件您运行看看。

下图D列的我的函数的结果，而E列是您函数的结果：
结果对比.jpg

yylucke · 发表于 2018-6-30 15:57

本帖最后由 yylucke 于 2018-6-30 16:01 编辑

vitrel 发表于 2018-6-30 15:44
朋友，抱歉地跟您说句，
我拿您的代码跟我方案四的代码对比过运行结果，结果相差甚远，
您代码的运 ...

的确，我的那个是有很多问题。在我采用那个方案的时候就懒得研究，反正用于常见人名和地名的。
现在改用你推荐的方案4.
谢谢你的分享！

		自动登录	找回密码
密码			免费注册

[分享] 汉字转拼音首字母，自定义函数，多方案对比

评分

评分

评分

评分