ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 22711|回复: 59

[讨论] 字符相似度比较的问题--经典模式

[复制链接]

TA的精华主题

TA的得分主题

发表于 2010-7-21 01:24 | 显示全部楼层 |阅读模式
本帖最后由 shanchuan 于 2011-8-19 18:04 编辑

题目要求:把附件A和B列名称相同的对应行的C列不合格描述内容大致相同超过3行的问题提取出来粘贴到另一表。
注:C列是相似,意思大致相同,不一定是字符完全相同。



第一次来看此贴的人以下内容不要看, 到此为止,直接点击附件2 单元格重复字符数1.rar ,以免影响思路 没有思路时再看下面内容不迟!

:time: 目前基本都是函数方法的解答,非常复杂;呼唤VBA侠圣和专家前来指导VBA方法





解题过程中的问与答:
思路一字符比较:在B列名称相同时要求将对应的C列不合格描述 内容相似的重复问题 标记为1  , 类似于表格中 手工标记的那样。可以用VBA或者函数实现吗?(注:是相似,不一定是完全相同。标准可以设置为有80%的字符一样,或者相同字符数超过10个)(已经解决99%)
7月22日22:33补充条件:目前公式都是上个单元格和下一个单元格比较(不是本意)。能不能在B列名称相同的时候,再计算对应的C列的不合格描述。如B4和B5都是衬垫,C列计算对应的C4和C5,C4有多少字符在C5出现,C5有多少字符在C4出现。
(已经解决)
2010-08-08求助:以上虽然实现上下行互相比较,但还是局限性很大,能否在B列名称相同的时候,把C列内容的重复(不一定是完全相同。标准可以设置为有80%的字符一样,或者相同字符数超过10个)次数大于等于3的标记出来?

思路二字符特征筛选:2010年7月27日,考虑采取按字符特征筛选的方法,去掉标点符合和排序的影响(已经解决)
2010年7月28日,利用COUNTIF()按分类标记字符特征,然后用CONCATENATE()合并A列B列同行单元格字符,统计每个分类的重复项(》=3标记为重复),但是这个方法太繁琐,几个分类就得操作*几次,请高手简化(2010-08-07  拆出冰山一角 附件1),并将附件Y列到AG列中标有“重复”的行 复制到sheet1中
2010年7月28日 :合并简化Y-AG列 =IF((AND(OR(O2<>0,P2<>0,Q2<>0,R2<>0,S2<>0,T2<>0,U2<>0,V2<>0,W2<>0),COUNTIF($X$2:$X$55,$X2)>=3)),1,)


不断更新附件  一是整理前期问题的解答,方便大家交流学习和讨论之用,二是不断挑战更复杂的应用,提出新的需求和问题 详见附件

[ 本帖最后由 shanchuan 于 2010-9-9 21:12 编辑 ]

Book11回复.rar

39.06 KB, 下载次数: 240

冰山一角

单元格重复字符数1.rar

45.16 KB, 下载次数: 370

附件2 题目要求

TA的精华主题

TA的得分主题

发表于 2010-7-21 06:59 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-21 08:37 | 显示全部楼层
原帖由 yaozong 于 2010-7-21 06:59 发表
'=IF(COUNTIF($C$2:$C$100,C2)>1,1,"")


你提供的公式精确比较,我想做的是大致比较,两个单元格的字符数有60%(或80%,具体是多少可以根据需要调整)的相似 或者说相似字符数超过多少个,就认为相似。

[ 本帖最后由 shanchuan 于 2010-7-21 08:44 编辑 ]

TA的精华主题

TA的得分主题

发表于 2010-7-22 21:37 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
那个判断重复字数的公式很经典

TA的精华主题

TA的得分主题

发表于 2010-7-22 21:40 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-22 21:40 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
原帖由 mn860429 于 2010-7-22 21:37 发表
那个判断重复字数的公式很经典


有解决思路吗

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-22 21:45 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
原帖由 mn860429 于 2010-7-22 21:40 发表
可以将$C3 $C2 用定义名称啊【SUBSTITUTE函数去掉空格】

钓客曾曰:
1.建议用=SUM(--(LEN(SUBSTITUTE($C3,MID($C2,ROW(INDIRECT("1:"&LEN($C2))),1),))<LEN($C3)))数组公式试试。(F列)
2.为了去掉空格(你的数据经大致检查,好像在最后有不可见的空白字符,因为嵌套超过7层,无法将substitute($c3,char(10),"")等直接代入,可以用自定义名称如
xh(=substitute($c3,char(10),""))和bh(=substitute($c2,char(10),""))分别来取代公式中的$c3和$c2。

关键需求是:要求将C列不合格描述 内容相似的重复问题 标记为1 ,(做标记的目的是为了能够通过其他函数或宏 自动提取粘贴到另一表格中。)标记完全相同的容易,标记大致相似的难啊,之所有有这样的需求,如附件所示,要统计同一个类别的零件出现的重复性问题,因c列问题描述的原始数据为手工录入数据库,难免因录入的标点、语句表述、数据库格式导致的隐藏空白等影响

[ 本帖最后由 shanchuan 于 2010-7-22 23:55 编辑 ]

TA的精华主题

TA的得分主题

发表于 2010-7-22 21:56 | 显示全部楼层
跟高手想的一样
这样还不行吗?
还有求重复个数的公式貌似有点问题
7777.rar (10.48 KB, 下载次数: 90)

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-22 22:32 | 显示全部楼层
原帖由 mn860429 于 2010-7-22 21:56 发表
跟高手想的一样
这样还不行吗?
还有求重复个数的公式貌似有点问题
757856

目前公式都是上个单元格和下一个单元格比较。
能不能在B列名称相同的时候,再计算对应的C列的不合格描述。如B4和B5都是衬垫,C列计算对应的C4和C5,C4有多少字符在C5出现,C5有多少字符在C4出现。

TA的精华主题

TA的得分主题

 楼主| 发表于 2010-7-23 00:00 | 显示全部楼层
期待利用VBA的解决方法的出现

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-23 21:41 , Processed in 0.036771 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表