ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
Python自动化办公应用大全 Excel 2021函数公式学习大典 Kutools for Office 套件发布 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
123
返回列表 发新帖

[求助] 如何仅通过正则表达式函数匹配重复?(进阶)

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-12-17 11:43 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
娋甜 发表于 2025-12-17 11:32
(*UCP)是将WPS的匹配字符集切换到UNICODE。原本WPS的\w 匹配不了中文,因为\w被限制在了ASCII范围。开启 ...

(*UCP),是wps独有的,还是正则表达式原有的规则?你讲了,有了这个可以类似\d匹配全角。那么微软的excel,不写这个是ok的,那么写上,会不会也ok?还是会报错?
另外,正则表达式的规则,哪儿可以看到全的。n年前,首次使用,我是在维基百科查资料。现在维基百科登不上去,找不到相对全面的正则表达式规则了。

TA的精华主题

TA的得分主题

发表于 2025-12-17 12:29 | 显示全部楼层
人有言兮是然 发表于 2025-12-17 11:43
(*UCP),是wps独有的,还是正则表达式原有的规则?你讲了,有了这个可以类似\d匹配全角。那么微软的excel ...

①(*UCP)是PCRE2语法,微软和WPS都只能在PCRE2框架内,没有特殊的额外内容。
②微软默认是UNICODE,写不写都是一样的,不报错。
③目前只有英文官方手册有描述基本含义,其余的基本都是网友自己整理的,不仅只有很少的部分,而且有很多错误。也正因如此,我目前正在出免费视频教程,计划把所有PCRE2语法全部精讲一遍。对正则有兴趣可以看看~下面是课程目录和一些资料:
https://www.kdocs.cn/l/cfUIKxodKgSv
image.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-12-17 13:26 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
娋甜 发表于 2025-12-17 12:29
①(*UCP)是PCRE2语法,微软和WPS都只能在PCRE2框架内,没有特殊的额外内容。
②微软默认是UNICODE,写不 ...

我前几天通过国内某ai问答整理了些\P的,你这个全乎。

TA的精华主题

TA的得分主题

发表于 2025-12-17 13:41 | 显示全部楼层
人有言兮是然 发表于 2025-12-17 13:26
我前几天通过国内某ai问答整理了些\P的,你这个全乎。

甜酱出的内容必然是最全的~ AI都是从网络资源学习的,正则水平只能停留在初级。目前全网资源都很匮乏,还有非常多人用错、混淆等。比如到处文章都提到的\p{Han}语法,甜酱是推荐一辈子都不要用的,因为它会误匹配顿号句号等,正确的应该使用\p{sc:Han}。由于多数人不太愿意学原理,一般是路上捡一朵花就拿回家插~所以太容易出错了,也容易让错的东西越传越广。也就是因为这样,才不自量力想要“正本清源”,出一套完善的课程~

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-12-17 14:02 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 人有言兮是然 于 2025-12-17 14:05 编辑
娋甜 发表于 2025-12-17 13:41
甜酱出的内容必然是最全的~ AI都是从网络资源学习的,正则水平只能停留在初级。目前全网资源都很匮乏,还 ...

你这是在骂我啊,我自我感觉可能就是这个论坛第一个用\p{Han}的。因为我个人不喜欢用两个汉字加一个减号表示,因为真正两个汉字加减号表示全部汉字的,那两个汉字不是我们普通人认识的汉字。今年上半年表格软件有正则表达式后,我就试着采用。你说的这个顿号句号问题,是我最初试用的时候就发现的,但我没有路径知道如何只保留汉字,剔除标点符号的表示方法。

TA的精华主题

TA的得分主题

发表于 2025-12-17 14:13 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
人有言兮是然 发表于 2025-12-17 14:02
你这是在骂我啊,我自我感觉可能就是这个论坛第一个用\p{Han}的。因为我个人不喜欢用两个汉字加一个减号 ...

所以现在知道啦,就用\p{sc:Han}就好了。想知道原理的话我的课程里都有讲解~
另外呢,"全部汉字"本身就是伪命题。因为汉字的边界是非常难区分的。你可以说[一-龟]不全,但[㐀-﨩]也是不全的。没有真正”准确“的汉字边界,因为划分字符所属真的是个很大的课题!所以就实用主义来说,常规容易打出来的[一-龟]足以满足日常要求。想要更广,就用\p{sc:Han}

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-12-17 14:42 | 显示全部楼层
娋甜 发表于 2025-12-17 13:41
甜酱出的内容必然是最全的~ AI都是从网络资源学习的,正则水平只能停留在初级。目前全网资源都很匮乏,还 ...

另外,我翻找出当时为了解决\p{Han}包含全角标点问题的正则表达式解决方法:
((?![\p{P}])[\p{Han}])
引申出一个新的问题,上面这个规则,是否等同于\p{sc:Han}?大佬解下惑?
图片是去年我曾发帖,对这个问题的疑惑之一
image.jpg

TA的精华主题

TA的得分主题

发表于 2025-12-17 14:52 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
很有营养的帖子

TA的精华主题

TA的得分主题

发表于 2025-12-17 15:00 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
人有言兮是然 发表于 2025-12-17 14:42
另外,我翻找出当时为了解决\p{Han}包含全角标点问题的正则表达式解决方法:
((?![\p{P}])[\p{Han}])
...

当然不可以啦~\p{Han}多出来的不止是标点,还有其它可能用于中文的字符。比如典型的偏旁部首,属于\p{Han},\pP就排除不掉,例如㇋。再例如,带圈汉字也属于\p{Han}:㊧,还有日期㏾等字符。这俩一个属于书写系统,一个属于通用类别,本身就不是一类的。它们结合起来,只能帮你解决一些中文标点问题。但\p{Han}和\p{sc:Han}之间的差距是无法靠结合其它结构来等效的。所以真正应该被重视的就是\p{sc:Han}

TA的精华主题

TA的得分主题

发表于 2025-12-17 15:40 | 显示全部楼层
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-12-17 18:59 , Processed in 0.024125 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表