ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 1296|回复: 12

[求助] 模糊数据匹配

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-6-11 13:22 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 泓丶 于 2023-6-11 13:45 编辑

如图 我想从sheet1的名称 从数据sheet里模糊找到匹配数值  万分感谢
109673b1aa792e8c2e33d4e8859ab04.png

举例.zip

8.8 KB, 下载次数: 20

TA的精华主题

TA的得分主题

发表于 2023-6-11 14:19 来自手机 | 显示全部楼层
//select * from 基础字符串模糊匹配转换成标准化字符串 limit 3;
create temp table aa as select *,user_func('levenshtein',a.字符串,b.标准化字符串) 编辑距离 from (select rowid,字符串 from  基础字符串模糊匹配转换成标准化字符串) a,(select 标准化字符串 from 基础字符串模糊匹配转换成标准化字符串) b;
select min(编辑距离),字符串,标准化字符串 from aa   group by 字符串 order by rowid;

先匹配字符串?
Screenshot_2023-06-11-14-18-28-892_cn.uujian.browser.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2023-6-11 14:23 | 显示全部楼层
还是多一点数据比较好,旧例子来说:匹配后面2字就好了(黄瓜、料酒、蚝油)

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-6-11 14:26 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
zpy2 发表于 2023-6-11 14:19
//select * from 基础字符串模糊匹配转换成标准化字符串 limit 3;
create temp table aa as select *,user ...

您好 字符串匹配 有一个问题 假如字符串有黄瓜和乳黄瓜 能否匹配到标准化字符串 完全相同的则匹配完全相同 而近似匹配近似呢

TA的精华主题

TA的得分主题

发表于 2023-6-11 14:45 来自手机 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
泓丶 发表于 2023-6-11 14:26
您好 字符串匹配 有一个问题 假如字符串有黄瓜和乳黄瓜 能否匹配到标准化字符串 完全相同的则匹配完全相 ...

levenshtein
百度一下这个算法,根据这个来的

TA的精华主题

TA的得分主题

发表于 2023-6-11 14:47 | 显示全部楼层
和楼上一样,用的levenshtein距离做模糊查找,只是用exceldna打包了一下,wps可以用32位的xll




动画.gif

举例.7z

298.79 KB, 下载次数: 23

评分

2

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-6-12 12:12 | 显示全部楼层
wanghan519 发表于 2023-6-11 14:47
和楼上一样,用的levenshtein距离做模糊查找,只是用exceldna打包了一下,wps可以用32位的xll

十分感谢 我明白了 比如说黄瓜酱或者黄瓜 模糊就出偏差了

TA的精华主题

TA的得分主题

发表于 2023-6-12 12:49 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
泓丶 发表于 2023-6-12 12:12
十分感谢 我明白了 比如说黄瓜酱或者黄瓜 模糊就出偏差了

比如用“乳黄瓜”去数组["黄瓜","黄瓜酱","荷兰黄瓜","南方乳黄瓜"]里找相似,那么编辑距离(比如删掉乳添加酱才能变成黄瓜酱,编辑距离就是2)是[1,2,3,2],而最后的排序依据是编辑距离除以对比的两个字符串长度之和,所以排序依据是[1/5,2/6,3/7,2/8],取其中最小的是黄瓜,但是这种对比方式是可以自定义的,比如不除以两个字符串长度之和,如果只除以右边的字符串长度,则最匹配的是南方乳黄瓜,但这种排序依据通用性不如前一种,或者也可以先结巴分词,再将分词排序,再算编辑距离等等,你可以根据自己的需要做修改

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-6-12 12:55 | 显示全部楼层
wanghan519 发表于 2023-6-12 12:49
比如用“乳黄瓜”去数组["黄瓜","黄瓜酱","荷兰黄瓜","南方乳黄瓜"]里找相似,那么编辑距离(比如删掉乳 ...

好的 感谢  我去研究了

TA的精华主题

TA的得分主题

发表于 2023-7-11 16:20 | 显示全部楼层
本帖最后由 高个子 于 2023-7-11 16:29 编辑


这个问题编辑距离也会出现这种问题,正确结果是E列
image.jpg
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-17 11:03 , Processed in 0.041519 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表