ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 7875|回复: 13

[求助]求问自动化筛选重复内容的办法

[复制链接]

TA的精华主题

TA的得分主题

发表于 2008-8-6 14:56 | 显示全部楼层 |阅读模式

kyhQc9h9.rar (5.69 KB, 下载次数: 51)


我这篇文档是湖南省大部分社区卫生服务机构的名录,但是有很多是重复的.有些是完全重复比如第一页有 "新开铺街道社区卫生服务中心    新开铺路1       5417516",第一百页有同样的条目 "新开铺街道社区卫生服务中心    新开铺路1       5417516".整篇文档有数十条这样的条目分布在不同的页面,有几千页,如果一条条找很麻烦,是否有快捷的批处理的方法或者命令呢?呵呵,在线等,向各位高手求教.文档请看附件

有的不是完全相同只是大部分重复比如"黑石渡街道社区卫生服务中心    德雅路391       4221926""黑石渡街道社区卫生服务站    德雅路口      4221926"

我要做的就是选出1000多页里面重复的条目然后删除保持没有条目重复,如何做到?

TA的精华主题

TA的得分主题

发表于 2008-8-6 16:14 | 显示全部楼层
怎么才算重复,是完全重复吗(就算差一个空格也不算完全重复)?

TA的精华主题

TA的得分主题

 楼主| 发表于 2008-8-6 16:58 | 显示全部楼层

开始也是想这个问题,完全重复应该相对简单些吧.能否匹配10个字符以上算重复呢?敢问上楼的大哥

TA的精华主题

TA的得分主题

发表于 2008-8-6 17:23 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

是指从条目段落的第一个字符开始计算吧?如果这样,大托镇社区卫生服务中心下属的服务站点将只剩一个。从条目格式来看,一段式到三段式都有,有以制表符分隔,也有以空格分隔。是否可以第一字段(名称)相同即算,但这样附件中绿色的条目就不算重复。

TA的精华主题

TA的得分主题

发表于 2008-8-6 18:12 | 显示全部楼层

给你提供一个思路,绝对能解决,我处理过相似的文档:

利用excel和word协同工作。

首先处理word文档:

1,替换所有^t为一个全角空格。

2,替换所有^p为十个全角空格加一个^p——也就是在每个段落标记前加十个全角空格。

3,替换"^13?{12,12}"为 "^&^t"——这里的12就差不多了。

然后利用Excel的筛选。

1,选中B1单元格,全选word的内容复制粘贴到excel中。

2,A1填入1,以下自动填充。B列有多少就填充多少,这里做序号用,避免筛选过后出错误。

3,按照B列筛选不重复值,在原位置显示。

4,复制结果到新的表,按A列排序。

5,将B、C列复制到word。替换删除所有^t和^p前空格。

qtrHDSGC.rar (20.52 KB, 下载次数: 25)

TA的精华主题

TA的得分主题

发表于 2008-8-6 18:37 | 显示全部楼层

如下程序按照4楼的重复界定标准处理,经简单测试似可通过。

Sub test()
'引用Microsoft VBScript Regular Expressions 5.5
Dim a As String, myReg As New RegExp, Matches, Match, n As Integer, b As String
a = ActiveDocument.Content
With myReg
    .Pattern = "(^[一-龥0-9]+)([\t\s].*\r)([.\r]*)(\1[\t\s].*?\r)"
    .Global = False 'True
    .Multiline = True
    Do While .test(a)
        Set Matches = .Execute(a)
        n = n + Matches.Count
        For Each Match In Matches
            b = b & Match.SubMatches(3)
        Next
        a = .Replace(a, "$1$2$3")
    Loop
End With
Documents.Add.Content = a '以新文档输出经删除处理后的文本内容
Documents.Add.Content = "删除记录" & vbCrLf & "共删除了" & n & "条,依次为:" & vbCrLf & b
End Sub

如用反复查找替换好像也行(不含第1条重复),代码为:
查找:(^13)([一-龥]@)([^t^32]*^13*)\2*^13
替换:\1\2\3

TA的精华主题

TA的得分主题

 楼主| 发表于 2008-8-7 10:46 | 显示全部楼层

刚上线,看到楼上两位大哥的回复,先顶一下你们辛苦了,慢慢看..

TA的精华主题

TA的得分主题

 楼主| 发表于 2008-8-7 11:09 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
看了一会,大部分懂了,只是excel部分看不太懂,不过理解了大大的思路,感谢.

TA的精华主题

TA的得分主题

发表于 2008-8-7 11:17 | 显示全部楼层

sylun兄:

能否在空闲时对楼上的代码进行一下逐行注释?我想学习一下,谢谢!

TA的精华主题

TA的得分主题

发表于 2008-8-7 11:19 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
楼主,哪部分没懂?我现在在线上
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-11 19:48 , Processed in 0.029189 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表