ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: chenwenming

[原创] 删除不同章节下的重复段落

[复制链接]

TA的精华主题

TA的得分主题

发表于 2017-10-27 22:01 来自手机 | 显示全部楼层
本帖最后由 duquancai 于 2017-10-27 22:06 编辑
chenwenming 发表于 2017-10-27 21:35
谢谢!测试了一下,速度是快的,但没有实现删除的黄色重复行,而是删除的重复第一行

我告诉你,只要是重复的段落(甭管重复1次还是2次还是N次,也甭管是相邻的还是不相邻的段落重复)都会被删除而保留唯一段落,自己出的题目难道这个道理都不明白,我还能说什么呢?无语!以后我不再回复你的贴。

TA的精华主题

TA的得分主题

发表于 2017-10-27 22:01 来自手机 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 duquancai 于 2017-10-27 22:08 编辑
chenwenming 发表于 2017-10-27 21:35
谢谢!测试了一下,速度是快的,但没有实现删除的黄色重复行,而是删除的重复第一行

我告诉你,只要是重复的段落(甭管重复1次还是2次还是N次,也甭管是相邻的还是不相邻的段落重复)都会被删除而保留唯一段落,自己出的题目难道这个道理都不明白,我还能说什么呢?无语!以后我不再回复你的贴。

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-10-27 22:31 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 chenwenming 于 2017-10-30 08:25 编辑
duquancai 发表于 2017-10-27 22:01
我告诉你,只要是重复的段落(甭管重复1次还是2次还是N次,也甭管是相邻的还是不相邻的段落重复)都会被 ...

可能怪我题目没说明白,其实一般来讲如果段落重复都是保留第一个段落的,如果两个段落之间如果有正文就会将原属于这个段落的正文并到上个段落,这两天仔细研究了一下杜前辈的代码,确实很优秀,比我的好多了,高人就是高人哪!佩服佩服!

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-4 08:38 | 显示全部楼层
本帖最后由 chenwenming 于 2017-11-4 17:45 编辑
  1. 一高人的指点(针对附件1):
  2. Sub test()
  3.     'Dim reg As New RegExp
  4.     Dim reg As Object
  5.     Dim dic, dic2, dic3 As Object
  6.     Dim p As Paragraph
  7.     'Dim dic As New Scripting.Dictionary
  8.     Set dic = CreateObject("scripting.dictionary")
  9.     'Dim dic2, dic3 As Scripting.Dictionary
  10.     level1 = ""
  11.     level2 = ""
  12.         For Each p In ActiveDocument.Paragraphs
  13.          Set reg = CreateObject("vbscript.regexp")
  14.         reg.Pattern = "^\s*[一二三四五六七八九十]+、"
  15.         If reg.test(p.Range.Text) Then
  16.             Set dic2 = CreateObject("scripting.dictionary")
  17.             'Set dic2 = New Scripting.Dictionary
  18.             dic.Add p.Range.Text, dic2
  19.             level1 = p.Range.Text
  20.             GoTo next1
  21.         End If
  22.         reg.Pattern = "^\s*[0-9]+、"
  23.         If reg.test(p.Range.Text) And level1 <> "" Then
  24.             If Not (dic(level1).Exists(p.Range.Text)) Then
  25.                 Set dic3 = CreateObject("scripting.dictionary")
  26.                 'Set dic3 = New Scripting.Dictionary
  27.                 dic(level1).Add p.Range.Text, dic3
  28.             End If
  29.             level2 = p.Range.Text
  30.             GoTo next1
  31.         End If
  32.         reg.Pattern = "^\s*[A-Z]+、"
  33.         If reg.test(p.Range.Text) And level2 <> "" Then
  34.             If Not (dic(level1)(level2).Exists(p.Range.Text)) Then
  35.                 dic(level1)(level2).Add p.Range.Text, ""
  36.                 p.Range.HighlightColorIndex = wdAuto
  37.             Else
  38.                 'p.Range.HighlightColorIndex = wdYellow
  39.                 p.Range.Delete
  40.             End If
  41.         End If
  42. next1:
  43.     Next
  44. End Sub
复制代码


TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-4 08:55 | 显示全部楼层
本帖最后由 chenwenming 于 2017-11-4 17:44 编辑

再附上我一直崇拜的龚老师的代码(针对附件1):
  1. Sub DelSamePara()
  2. On Error Resume Next
  3. Dim ParaXml() As String
  4. Dim ParaText() As String
  5. Dim TextPart() As String
  6. Dim TextNum As Long
  7. Dim OpenXml() As String
  8. Dim NeedDel() As Boolean
  9. Dim XmlPartNum As Long
  10. Dim ParaNum As Long
  11. Dim BefBody As String
  12. Dim AftBody As String
  13. Dim i As Long
  14. Dim j As Long
  15. Dim k As Long
  16. Dim ParaPartIndex  As Long
  17. Dim SubStart As Long
  18.     OpenXml = Split(ActiveDocument.Range.WordOpenXML, "<pkg:part pkg:name=")
  19.     XmlPartNum = UBound(OpenXml)
  20.     For i = 0 To XmlPartNum
  21.         If Left$(OpenXml(i), 120) = """/word/document.xml"" pkg:contentType=""application/vnd.openxmlformats-officedocument.wordprocessingml.document.main+xml"">" Then
  22.             ParaPartIndex = i
  23.             BefBody = Left$(OpenXml(i), InStr(OpenXml(i), "<w:body>") + 7)
  24.             OpenXml(i) = Right$(OpenXml(i), Len(OpenXml(i)) - Len(BefBody))
  25.             AftBody = Right$(OpenXml(i), Len(OpenXml(i)) - InStrRev(OpenXml(i), "</w:body>") + 1)
  26.             OpenXml(i) = Left$(OpenXml(i), Len(OpenXml(i)) - Len(AftBody))
  27.             ParaXml = Split(OpenXml(i), "</w:p>")
  28.             ParaNum = UBound(ParaXml) - 1
  29.             Exit For
  30.         End If
  31.     Next
  32.     If ParaNum > 0 Then
  33.         ReDim ParaText(ParaNum) As String
  34.         For j = 0 To ParaNum
  35.             TextPart = Split(ParaXml(j), "</w:t>")
  36.             TextNum = UBound(TextPart) - 1
  37.             For i = 0 To TextNum
  38.                 TextPart(i) = Right$(TextPart(i), Len(TextPart(i)) - InStrRev(TextPart(i), ">"))
  39.             Next
  40.             TextPart(i) = ""
  41.             ParaText(j) = Replace$(Trim$(Join(TextPart, "")), " ", "")
  42.         Next
  43.     End If
  44.     '下面是你要怎么判断标题开头,标题结束,设置需要删除的规则,你的文档表达不清楚,请根据自己的需要修改。
  45.     ReDim NeedDel(ParaNum) As Boolean
  46.     For i = 0 To ParaNum
  47.         If ParaText(i) Like "#、*" Or ParaText(i) Like "##、*" Or ParaText(i) Like "[一二三四五六七八九○零十百]*" Then
  48.             For j = i - 1 To SubStart Step -1
  49.                 For k = j - 1 To SubStart Step -1
  50.                     If ParaText(j) = ParaText(k) Then
  51.                         NeedDel(j) = True
  52.                         Exit For
  53.                     End If
  54.                 Next
  55.             Next
  56.             SubStart = i
  57.         End If
  58.     Next
  59.     For i = 0 To ParaNum
  60.         If NeedDel(i) = True Then
  61.             ParaXml(i) = Left$(ParaXml(i), InStr(ParaXml(i), "<w:p ") - 1)
  62.         Else
  63.             ParaXml(i) = ParaXml(i) & "</w:p>"
  64.         End If
  65.     Next
  66.    OpenXml(ParaPartIndex) = BefBody & (Join(ParaXml, "") & AftBody)
  67.    ActiveDocument.Range.InsertXML Join(OpenXml, "<pkg:part pkg:name=")
  68. End Sub
复制代码


TA的精华主题

TA的得分主题

发表于 2017-11-4 08:57 | 显示全部楼层
既然都上正则,其实我有一个想法,仅供参考
查询一次,标记重复项,并将每个重复项标记序号:例如﨩001-你的内容,第1个可以不标
最后统一查找一次将带序号的都干掉

没有看前文的代码,不知道这个方案的效率会咋样

TA的精华主题

TA的得分主题

发表于 2017-11-4 11:35 | 显示全部楼层

删除不同章节下的重复段落
本事例:删除第一层次下的 重复段落,不删除表格内有重复段落的情况,不改变其文档原格式
第一层次下的手动编号如下格式:一、这是第一层标题:类型1
............
............
中间可能有表格,图片、图形等对象
............
二、这是第一层标题:类型2
............
............
中间可能有表格,图片、图形等对象
............

  1. Sub 删除不同章节下的重复段落()
  2.     Dim myStart&, P As Range, b As Boolean
  3.     With ActiveDocument.Content.Find
  4.         Do While .Execute("[一二三四五六七八九〇百千万]@、", , , 1, , , 0)
  5.             With .Parent
  6.                 If Not b Then
  7.                     Set P = ActiveDocument.Range(.Start, ActiveDocument.Content.End)
  8.                     Call Delete_duplicate_paragraphs(P): b = True
  9.                 Else
  10.                     Set P = ActiveDocument.Range(.Start, myStart)
  11.                     Call Delete_duplicate_paragraphs(P)
  12.                 End If
  13.                 myStart = .Start: .Collapse
  14.             End With
  15.         Loop
  16.     End With
  17. End Sub
  18. Sub Delete_duplicate_paragraphs(ByVal myRange As Range)
  19.     Dim d As Object, i&
  20.     Set d = CreateObject("Scripting.Dictionary")
  21.     With myRange
  22.         For i = .Paragraphs.Count To 2 Step -1
  23.             If Not .Paragraphs(i).Range.Information(12) Then
  24.                 If Not d.Exists(.Paragraphs(i).Range.Text) Then
  25.                     Set d(.Paragraphs(i).Range.Text) = .Paragraphs(i).Range
  26.                 Else
  27.                     d(.Paragraphs(i).Range.Text).Text = Empty
  28.                     Set d(.Paragraphs(i).Range.Text) = .Paragraphs(i).Range
  29.                 End If
  30.             End If
  31.         Next
  32.     End With
  33.     Set d = Nothing
  34. End Sub
复制代码


TA的精华主题

TA的得分主题

发表于 2017-11-4 19:48 | 显示全部楼层
龚老师的想法别出心裁,直接处理xml

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-4 19:54 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2021-3-21 17:57 | 显示全部楼层
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-8 23:58 , Processed in 0.023003 second(s), 6 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表