ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 507|回复: 9

[求助] 用字典找重复

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-7-11 23:16 | 显示全部楼层 |阅读模式
本帖最后由 YanfongY366 于 2023-7-12 10:03 编辑

用字典找重复, 然后选取重复项目并更新, 只有几百或几千是没有问题, 但当数量到几十万条时就跑不动了. 一启动就当机, 有方法可以优化吗? 谢谢!

未命名.png
Temp.rar (1.09 MB, 下载次数: 9)

Temp.rar

443.64 KB, 下载次数: 15

TA的精华主题

TA的得分主题

发表于 2023-7-12 08:09 | 显示全部楼层
  1. Sub test()
  2.     Dim r&, i&
  3.     Dim arr, brr
  4.     Dim d As Object
  5.     Application.ScreenUpdating = False
  6.     Application.DisplayAlerts = False
  7.     Set d = CreateObject("scripting.dictionary")
  8.     With Worksheets("RawData")
  9.         .AutoFilterMode = False
  10.         r = .Cells(.Rows.Count, 2).End(xlUp).Row
  11.         arr = .Range("b2:b" & r)
  12.         ReDim brr(1 To UBound(arr), 1 To 1)
  13.         For i = 1 To UBound(arr)
  14.             d(arr(i, 1)) = d(arr(i, 1)) + 1
  15.         Next
  16.         For i = 1 To UBound(arr)
  17.             brr(i, 1) = d(arr(i, 1))
  18.         Next
  19.         .Range("c2").Resize(UBound(brr), UBound(brr, 2)) = brr
  20.     End With
  21. End Sub
复制代码

TA的精华主题

TA的得分主题

发表于 2023-7-12 08:11 | 显示全部楼层
猜测规则重新写的。

Temp.rar

1.15 MB, 下载次数: 19

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-7-12 09:47 | 显示全部楼层
本帖最后由 YanfongY366 于 2023-7-12 09:54 编辑
chxw68 发表于 2023-7-12 08:11
猜测规则重新写的。

谢谢, 但原始数据是14位的条码(比如31213733892112), 套用一下, 还是当机了.

TA的精华主题

TA的得分主题

发表于 2023-7-12 09:49 | 显示全部楼层
YanfongY366 发表于 2023-7-12 09:47
谢谢, 但原始数据是16位的条码(比如3121113733892112), 套用一下, 还是当机了.

按你上传的附件写的,你的原始数据是什么样子的我不知道。

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-7-12 09:57 | 显示全部楼层
chxw68 发表于 2023-7-12 09:49
按你上传的附件写的,你的原始数据是什么样子的我不知道。

不好意思, 因为条码是公司资料, 所以用数字代替了, 原始数据是不重复的14位条码.

TA的精华主题

TA的得分主题

发表于 2023-7-12 10:09 | 显示全部楼层
YanfongY366 发表于 2023-7-12 09:47
谢谢, 但原始数据是14位的条码(比如31213733892112), 套用一下, 还是当机了.

数据太多了,运行需要一定时间是正常的。

TA的精华主题

TA的得分主题

发表于 2023-7-12 14:30 | 显示全部楼层
1) 將"條碼"代入"文本"變數
2) 若有公式引用, 在回寫時肯定會慢

TA的精华主题

TA的得分主题

发表于 2023-7-12 14:42 来自手机 | 显示全部楼层
百万个key时,vba字典变得很慢,collection类型可以带个key速度更快,但得自己通过报错实现exists方法

其实这么多行,原始数据很大可能不是Excel,直接用其他工具处理更方便

TA的精华主题

TA的得分主题

发表于 2023-7-12 15:20 | 显示全部楼层
本帖最后由 wanghan519 于 2023-7-12 16:27 编辑

测试了一下,把数据从文本读出来当成key加入字典这个过程:


vba里的字典10万个key耗时不到1秒,100万个key耗时55秒
vba里的collection100万个key耗时4.7秒
awk里100万个key耗时0.3秒
perl里100万个key耗时1.3秒
python里100万个key耗时1.1秒


ado确实快,100万数据找出重复值耗时5秒

上面的工具里awk最快,用字典循环两次找出重复值0.6秒
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-17 00:45 , Processed in 0.041512 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表