ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: shanchuan

[讨论] 字符相似度比较的问题--经典模式

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-23 10:57 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

沉鱼落雁

快沉船啦
雁过留声 给点建议也行

[ 本帖最后由 shanchuan 于 2010-7-23 12:36 编辑 ]

TA的精华主题

TA的得分主题

发表于 2010-7-23 13:09 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
名称相同的上行含下行字符个数及下行含上行字符个数分别见附件L、M列(放在一列里,如果有连续三列相同名称,则会产生混乱),验证示例见N23:N24;
又,上次提出的标出两列字符完全相同、相同80%、十个以上字符相同的做标志,我把前两个要求做在G、H列,经验证,十个以上字符相同的,有可能相同的尽是一些标点符号和数字,没有意义,就不做了。
另外,公式4,应该说与(我的)公式2是殊途同归,达到同样目的,而且同时也比较短,是比公式2更好的公式,至于看起来数据不完全一致,是因为原始数据中有的含不可见字符,有的不含,公式又没有去掉不可见字符,所以有了差异。公式3和公式1一样,是不对的,因为存在着相同字符数超过本身字符数的同样问题(如J10)。

单元格重复字符数.rar

17 KB, 下载次数: 80

TA的精华主题

TA的得分主题

发表于 2010-7-23 13:57 | 显示全部楼层
增加一个相同名称含相同字符80%以上的标志。(本行与上行或本行与下行80%相同以上为1,虽上行与本行有80%相同,但本行与上行没有到80%也不标,本行与下行也如此,如51行)(公式4已做去不可见字符处理)

[ 本帖最后由 wangjguo44 于 2010-7-23 13:59 编辑 ]

单元格重复字符数.rar

18.22 KB, 下载次数: 130

TA的精华主题

TA的得分主题

发表于 2010-7-24 11:43 | 显示全部楼层
人工判定程序判定应该会存在一定的差异,以下代码还存在没有进行逆序判定的不足,仅供参考:

  1. Sub GetTag()
  2.     Dim Arr, k%, i%, m%, Str$

  3.     Arr = Range("B2", [B1].End(4)(1, 3))
  4.     For k = 1 To UBound(Arr) - 1
  5.         For i = k + 1 To UBound(Arr)
  6.             If Arr(i, 1) = Arr(k, 1) And Arr(i, 3) = "" Then
  7.                 Str = Arr(i, 2)
  8.                 For m = 1 To Len(Arr(k, 2)) - 1
  9.                     Str = Replace(Str, Mid(Arr(k, 2), m, 1), "")
  10.                 Next
  11.                 If Len(Str) / Len(Arr(i, 2)) < 0.2 Then Arr(i, 3) = 1: Arr(k, 3) = 1
  12.             End If
  13.         Next
  14.     Next

  15.     [B2].Resize(k, 3) = Arr
  16. End Sub
复制代码

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-24 22:04 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-26 10:57 | 显示全部楼层
原帖由 alzeng 于 2010-7-24 11:43 发表
人工判定程序判定应该会存在一定的差异,以下代码还存在没有进行逆序判定的不足,仅供参考:
Sub GetTag()
    Dim Arr, k%, i%, m%, Str$

    Arr = Range("B2", .End(4)(1, 3))
    For k = 1 To UBound(Arr ...

Arr = Range("B2", [B1].End(4)(1, 3))怎么理解,请高手帮忙注释一下
[B2].Resize(k, 3) = Arr怎么理解

TA的精华主题

TA的得分主题

发表于 2010-7-26 11:19 | 显示全部楼层
以字符来算“相似”,恐怕不妥,比如下面两个句子,仅1字之差,但意思怎能是“相似”?:
“……………………省去n多相同字”
“……………………省去n多不同字”

TA的精华主题

TA的得分主题

发表于 2010-7-26 11:56 | 显示全部楼层
Arr = Range("B2", [B1].End(4)(1, 3)) → Arr = Range("B2", [B65536].End(xlUp).Offset(0, 2))
[B2].Resize(k, 3) = Arr → 将数组Arr的值赋于:以B2单元格起始,扩大到k行3列的区域。

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-26 12:51 | 显示全部楼层
原帖由 gouweicao78 于 2010-7-26 11:19 发表
以字符来算“相似”,恐怕不妥,比如下面两个句子,仅1字之差,但意思怎能是“相似”?:
“……………………省去n多相同字”
“……………………省去n多不同字”

请版主赐教还有更好的办法吗?字符比较是目前我能想到的唯一办法。是不可能100%准确。

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-26 23:35 | 显示全部楼层
原帖由 gouweicao78 于 2010-7-26 11:19 发表
以字符来算“相似”,恐怕不妥,比如下面两个句子,仅1字之差,但意思怎能是“相似”?:
“……………………省去n多相同字”
“……………………省去n多不同字”

讨论:如果扩展要求         详见1楼附件对前提3 “相似”的详解。(按字符特征筛选比简单比较字符相似度要准确的多)       

前提1        代号相等(A列相等)       
前提2        产品名称相等(B列相等)       
前提3        满足前提1和2的重复问题(C列不合格描述相似)超过3次,就是累计超过3行的
前提4        同时满足上面3个前提条件的,在后面的一列标记为1,并复制到sheet1) 见1楼附件

[ 本帖最后由 shanchuan 于 2010-7-26 23:36 编辑 ]
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-24 01:59 , Processed in 0.041306 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表