1234

ExcelHome技术论坛

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

帖子
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 528|回复: 37

[求助] 关于数据很多的大文件去重(保留最后一次)

[复制链接]

TA的精华主题

TA的得分主题

发表于 2025-3-27 21:28 | 显示全部楼层 |阅读模式
先遍历表1:按照A列去重,传统的是保留第一次出现的,这里是保留最后一次出现的,然后写入表3。然后遍历表2,首先该号码(A列)在表1的A列没出现过,其次类似似于表1那样的按照A列去重(保留最后一次的),写入表3,相当于对表1的补充。实际表大概10万行 和 60万行。我目前是数组遍历,但是很占内存,还有什么快的方法吗~谢谢

大文件去重.zip

28.9 KB, 下载次数: 31

TA的精华主题

TA的得分主题

发表于 2025-3-27 21:48 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
建议sql处理

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-3-27 22:03 来自手机 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
shiruiqiang 发表于 2025-3-27 21:48
建议sql处理

不会sql.目前只局在vba

TA的精华主题

TA的得分主题

发表于 2025-3-27 22:50 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
参与一下,仅供参考,使用双字典。。。
image.png
image.png

大文件去重.zip

29.71 KB, 下载次数: 9

评分

3

查看全部评分

TA的精华主题

TA的得分主题

发表于 2025-3-27 22:51 | 显示全部楼层
代码如下。。。
Sub test()
    Application.ScreenUpdating = False
    Application.DisplayAlerts = False
    t = Timer
    Dim wb As Workbook, sht As Worksheet, sh As Worksheet
    Set wb = ThisWorkbook
    Set sht = wb.Sheets("表1")
    Set sh = wb.Sheets("表2")
    arr = sht.[a1].CurrentRegion
    Set d = CreateObject("scripting.dictionary")
    For i = 1 To UBound(arr)
        s = arr(i, 1)
        d(s) = Application.Index(arr, i)
    Next
    n = 0
    ReDim brr(1 To 10 ^ 6, 1 To UBound(arr, 2))
    For Each Item In d.items
        n = n + 1
        For j = 1 To UBound(Item)
            brr(n, j) = Item(j)
        Next
    Next
    arr = sh.[a1].CurrentRegion
    Set dic = CreateObject("scripting.dictionary")
    For i = 2 To UBound(arr)
        s = arr(i, 1)
        If Not d.exists(s) Then
           dic(s) = Application.Index(arr, i)
        End If
    Next
    With wb.Sheets("表3")
        .Cells.ClearContents
        For Each Item In dic.items
            n = n + 1
            For j = 1 To UBound(Item)
                brr(n, j) = Item(j)
            Next
        Next
        .Columns(1).NumberFormat = "@"
        .[a1].Resize(n, UBound(brr, 2)) = brr
    End With
    Set d = Nothing
    Set dic = Nothing
    Application.ScreenUpdating = True
    Application.DisplayAlerts = True
    MsgBox "共耗时:" & Format(Timer - t, "0.0000") & " 秒!!!", 64
End Sub




评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2025-3-27 23:30 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2025-3-27 23:31 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

WPS 打开
大文件去重.rar (25.2 KB, 下载次数: 6)

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-3-28 06:55 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2025-3-28 07:00 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
仅供参考...归并算法,支持大数据
2025-03-28_065759.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-3-28 07:08 | 显示全部楼层
quqiyuan 发表于 2025-3-27 22:50
参与一下,仅供参考,使用双字典。。。

这里是保留最后一行哈 不是第一次的行;试了下 感觉直接调用字典item还是小慢哈。据说调用工作表函数会比数组慢些
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

1234

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-4-2 20:32 , Processed in 0.031449 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表