ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 689|回复: 6

[求助] 如何快速比对相似数据

[复制链接]

TA的精华主题

TA的得分主题

发表于 2022-11-17 16:49 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
求助论坛各位大神, image.png 具体内容见附件

相似核对.rar

6.21 KB, 下载次数: 15

TA的精华主题

TA的得分主题

发表于 2022-11-17 17:32 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
请看附件。。。

工作簿01.zip

23.83 KB, 下载次数: 15

TA的精华主题

TA的得分主题

 楼主| 发表于 2022-11-17 20:45 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助

谢谢你的解答,但这个不是我需要的结果,我需要的结果是,相似度有80%的数据做相同标记。

TA的精华主题

TA的得分主题

发表于 2022-11-18 13:24 来自手机 | 显示全部楼层
goblin_he 发表于 2022-11-17 20:45
谢谢你的解答,但这个不是我需要的结果,我需要的结果是,相似度有80%的数据做相同标记。

这个相似度咋描述?levenshtein?

https://club.excelhome.net/forum.php?mod=viewthread&tid=1638309&fromguid=hot&extra=&mobile&_dsign=1c485cc2

需要分词吗?

TA的精华主题

TA的得分主题

发表于 2022-11-18 13:59 | 显示全部楼层
本帖最后由 笨鸟飞不高 于 2022-11-18 15:20 编辑

相似核对(修改).zip (16.07 KB, 下载次数: 4)


纯属瞎凑~~~

TA的精华主题

TA的得分主题

发表于 2022-11-18 15:17 | 显示全部楼层
本帖最后由 wanghan519 于 2022-11-18 15:21 编辑

主要是相似的标准是什么,最近正好学习exceldna,没写代码,只是用c#打了个包:
  1. using System;
  2. using System.Collections.Generic;
  3. using System.Linq;
  4. using System.Text;
  5. using System.Threading.Tasks;
  6. using ExcelDna.Integration;
  7. using Fastenshtein;

  8. namespace fuzzy
  9. {
  10.     public static class Class1
  11.     {
  12.         [ExcelFunction(Description = "Fastenshtein")]
  13.         public static double lev(string x, string y)
  14.         {
  15.             return Levenshtein.Distance(x, y);
  16.         }
  17.     }
  18. }
复制代码


加载xll文件后,多了个lev公式,就是返回Levenshtein距离

我也想知道,到底什么判断标准为好,比如,如果直接用上面这个距离,那么两个字符串长度相差很多的时候效果不好;如果用上面的距离除以待判断字符串的长度,那如果待判断字符串之间的长度差别很大,效果不好。
就是这个判断标准,期待朋友们给出办法,谢谢


Debug.7z

389.04 KB, 下载次数: 2

TA的精华主题

TA的得分主题

发表于 2022-11-18 16:03 | 显示全部楼层
本帖最后由 wanghan519 于 2022-11-18 16:43 编辑

上面的帖还在审核,这次用的标准是,距离除以待对比字符串的长度,输出小于1中最小的结果:

  1. using System;
  2. using System.Collections.Generic;
  3. using System.Linq;
  4. using System.Text;
  5. using System.Threading.Tasks;
  6. using ExcelDna.Integration;
  7. using Fastenshtein;

  8. namespace fuzzy
  9. {
  10.     public class Class1
  11.     {
  12.         [ExcelFunction(Description = "Fastenshtein")]
  13.         public static string FUZ(string s, object[] rng)
  14.         {
  15.             var lev = new Levenshtein(s);
  16.             var ret = "";
  17.             float tmp = 1;
  18.             float t;
  19.             string r;
  20.             for (var i = 0; i < rng.Length; i++)
  21.             {
  22.                 r = rng[i].ToString();
  23.                 t = (float)lev.DistanceFrom(r) / r.Length;
  24.                 if (t < tmp)
  25.                 {
  26.                     ret = r;
  27.                     tmp = t;
  28.                 }
  29.             }
  30.             return ret;
  31.         }
  32.     }
  33. }

复制代码



image.png

Desktop.7z

395.85 KB, 下载次数: 7

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-21 02:32 , Processed in 0.041685 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表