ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 3341|回复: 21

[求助] 大数据匹配代码修改

[复制链接]

TA的精华主题

TA的得分主题

发表于 2020-3-4 09:29 | 显示全部楼层 |阅读模式
大数据匹配代码修改
找高手帮助匹配EXCEL的数据
http://club.excelhome.net/thread-1523630-1-1.html
一把小刀闯天下老师提供了一种别样的字典解决大批量数据匹配问题
源代码详见工作簿内test
我认为很好,很想好好学习,有2个问题想再请教各位大神
一、
如果这个工作簿内的几个工作表不是连续的数字作为工作表名称
比如工作表1=北京市,工作表2=上海市,工作表3=广东省,工作表4=待匹配表
该如何修改代码呢?(test3)
二、
如果需要通过第四张表的A、B列,匹配前面三张表里面相对应的数据后自动粘贴到表四对应单元格,
有该如何修改代码呢?(test4)
我自己做了好久也没解决。
麻烦大神帮忙看下!
谢谢!

匹配数据11.rar

1.82 MB, 下载次数: 18

TA的精华主题

TA的得分主题

发表于 2020-3-4 11:09 | 显示全部楼层
本帖最后由 sheeboard 于 2020-3-4 11:59 编辑

用pandas 参考
  1. import pandas as pd
  2. df=pd.DataFrame([])
  3. sheet_names=['北京市', '上海市', '广东省']
  4. for sheet in sheet_names:
  5.     df=df.append(pd.read_excel('匹配数据11.xlsm',sheet_name=sheet,dtyp={"ID":str}))

  6. target=pd.read_excel('匹配数据11.xlsm',sheet_name='4',dtype={'ID':str})

  7. result=pd.merge(target,df,on=['TT','ID'])
复制代码

这个也就读取数据花点时间,真正处理合并才几十毫秒。
(%timeit result=pd.merge(target,df,on=['TT','ID'])                                                                                    
20.6 ms ± 60.1 µs per loop (mean ± std. dev. of 7 runs, 10 loops each))

另外那个帖子里有人说了用sql,我觉得也不错,就是一个join的事情。

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2020-3-4 11:15 | 显示全部楼层
顺便讲一下,源数据要清理一下,数据类型不一致,这个影响后面的处理速度。还有100M也不算大数据,用一些专用工具处理起来很快的。

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-3-4 15:46 | 显示全部楼层
sheeboard 发表于 2020-3-4 11:09
用pandas 参考
这个也就读取数据花点时间,真正处理合并才几十毫秒。
(%timeit result=pd.merge(target, ...

谢谢老师!
好像这只是其中的一部分
有完整的代码吗?

TA的精华主题

TA的得分主题

发表于 2020-3-4 16:23 | 显示全部楼层
xinlan6 发表于 2020-3-4 15:46
谢谢老师!
好像这只是其中的一部分
有完整的代码吗?

最后加一句
result.to_excel('输出文件.xlsx',index=False)
就可以了。
我写的是很粗略的,一些细节需要你自己去根据实际情况处理完善,比如表4里有重复数据。

TA的精华主题

TA的得分主题

发表于 2020-3-4 20:55 | 显示全部楼层
'稍作修改,自己测试一下。如果可用把总数据行与运行时间给我传上来

'你这点数据不带输出用时100ms左右,每个ID仅匹配一次,,,

Option Explicit

Const NUM As Long = 5 * 10 ^ 4 '每个字典最多装入的数据条数
Const LINE As Long = 10 ^ 5 '分段读取数据,这里10^5行为一段,如果溢出可以改的更小些,比如5*10^4

Sub test()
  Dim arr(), t As String, i As Long, j As Long, k As Long, kk As Long
  Dim cnt As Long, m As Long, tm As Single, n As Long, ii As Long
  Dim row As Long, sht
  tm = Timer
  With Sheets("4")
    arr = .Range("a2:b" & .Cells(Rows.Count, "b").End(xlUp).row).Value
  End With
  ReDim brr(1 To UBound(arr, 1), 1 To 14) As String
  ReDim dic(UBound(arr, 1) / NUM + 1) As Object
  For i = 1 To UBound(dic)
    Set dic(i) = CreateObject("scripting.dictionary")
  Next
  sht = Split("北京市,上海市,广东省", ",")
  For i = 1 To UBound(arr, 1)
    t = arr(i, 2)
    If Len(t) Then
      If m Mod NUM = 0 Then cnt = cnt + 1
      dic(cnt)(t) = i: m = m + 1
    End If
    brr(i, 1) = arr(i, 1): brr(i, 2) = arr(i, 2)
  Next
  On Error GoTo errmsg
  For i = 0 To UBound(sht)
    row = Sheets(sht(i)).Cells(Rows.Count, "b").End(xlUp).row
    ReDim pos(1 To row \ LINE + 1, 1 To 2) As Long
    For ii = 1 To UBound(pos)
      pos(ii, 1) = (ii - 1) * LINE + 1
      pos(ii, 2) = ii * LINE
      If row <= pos(ii, 2) Then n = ii: pos(ii, 2) = row: Exit For
    Next
    For ii = 1 To n
      arr = Sheets(sht(i)).Cells(pos(ii, 1), "a").Resize(pos(ii, 2), 14).Value
      For j = 1 To UBound(arr, 1)
        t = arr(j, 2)
        If Len(t) Then
          For k = 1 To cnt
            If dic(k).exists(t) Then
              m = dic(k)(t)
              For kk = 3 To UBound(arr, 2)
                brr(m, kk) = arr(j, kk)
              Next
              Exit For
            End If
          Next
        End If
      Next
    Next
  Next
  Debug.Print Timer - tm
  Sheets("4").[a2].Resize(UBound(brr, 1), UBound(brr, 2)) = brr
  Debug.Print Timer - tm
  Exit Sub
errmsg:
  MsgBox "Error:" & vbNewLine & "工作表:" & i & vbNewLine & "行数:" & j + 1
End Sub

评分

3

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-3-5 09:27 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
一把小刀闯天下 发表于 2020-3-4 20:55
'稍作修改,自己测试一下。如果可用把总数据行与运行时间给我传上来

'你这点数据不带输出用时100ms左右 ...

谢谢老师!
共有4个模拟表,每个表格大约1万行,运行时间如下

C:\Users\admin\Pictures\dsjyxsj.jpg

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-3-5 09:28 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
一把小刀闯天下 发表于 2020-3-4 20:55
'稍作修改,自己测试一下。如果可用把总数据行与运行时间给我传上来

'你这点数据不带输出用时100ms左右 ...

file:///C:/Users/admin/AppData/Local/Temp/ksohtml/wpsC4B6.tmp.jpg  file:///C:/Users/admin/AppData/Local/Temp/ksohtml/wpsC4C6.tmp.jpg

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-3-5 09:33 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
一把小刀闯天下 发表于 2020-3-4 20:55
'稍作修改,自己测试一下。如果可用把总数据行与运行时间给我传上来

'你这点数据不带输出用时100ms左右 ...

不好意思,老师
运行图片没传好,只好用附件啦,谢谢老师!
dsjyxsj.jpg

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-3-5 09:37 | 显示全部楼层
一把小刀闯天下 发表于 2020-3-4 20:55
'稍作修改,自己测试一下。如果可用把总数据行与运行时间给我传上来

'你这点数据不带输出用时100ms左右 ...

为了学习,还得再请教老师:
如果需要通过第四张表的A、B列2个关键列,匹配前面三张表里面相对应的数据后自动粘贴到表四对应单元格,
也就是在匹配时,表1的A列= 表4的A列,且&nbsp;表2的B列= 表4的B列,方可匹配

又该如何修改代码呢?(test4)

麻烦老师,谢谢老师!
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-3-29 14:25 , Processed in 0.047362 second(s), 10 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表