ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 2514|回复: 10

[求助] 海量数据分摊,求助大神帮忙

[复制链接]

TA的精华主题

TA的得分主题

发表于 2018-5-4 11:10 | 显示全部楼层 |阅读模式
[tr] [/tr]
[tr] [/tr]
[tr] [/tr]
[tr] [/tr]
[tr] [/tr]
[tr] [/tr]
[tr] [/tr]
拆分条件
1.查询《数据源》表每一行数据
2.如果“条件”列,为“A”时。则拆分该行。按比例拆分(《拆分条件》表“C列“,保留整数,分摊后合计数不能有差),并删除原行,拆分结果放入《结果》表中
3.如果“条件”列,为“B”时,则将同一个”编号“列的所有行按"数据"列求和。如果求和结果小于20万,不拆分这些行(就是不进行任何操作),如果求和结果大于等于20万,则拆分该行。按比例拆分(《拆分条件》表“C列“,保留整数,分摊后合计数不能有差),并删除原行,拆分结果放入《结果》表中
举例:
《数据源》第二行,条件为"A",所以我需要将”数据“行的”1439“这个值进行拆分,拆分成10行(按比例),导入《结果》表
《数据源》第五行,条件为"B",对应编号为"BH00150",我将所有"BH00150"且条件为"B"的”数据“行进行汇总(结果为200087),因为200087大于20万,所以这些行需要全部进行拆分,每行数据都拆分成10行(按比例),导入《结果》表,并删除《数据源》表中原来的行

海量数据处理.rar

1.98 MB, 下载次数: 30

TA的精华主题

TA的得分主题

发表于 2018-5-4 15:02 | 显示全部楼层
简单看了一下您的数据,实现起来应不算难,问题在于,当通过4舍5入的方式得到的整数之和与源数有差异的时候,调整哪个数?第1个?最小的?还是随意?

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-5-4 15:05 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 nihao123456789 于 2018-5-4 15:06 编辑
hugo_huang 发表于 2018-5-4 15:02
简单看了一下您的数据,实现起来应不算难,问题在于,当通过4舍5入的方式得到的整数之和与源数有差异的时候 ...

第一个吧。数据量大。关键我只会简单的VBA。运行的时候很卡。实际数据有10万左右。且项目可能不一定是10个。一般在1-20个之间浮动。

TA的精华主题

TA的得分主题

发表于 2018-5-4 17:58 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
这个问题用Power Query解起来比较简单,通过几个步骤的操作,结合List.Transform函数做一下数据转换即可,我用Power Query简单做了一个,步骤不多,如下图所示: 未命名图片.png
其中的一些步骤可以按需要进行整合一下,不过目前这个拆分也还比较快,4万行数据拆成22万多,也就几秒钟。
未命名图片1.png
附件里的数据我删了大部分,因为源数据拆分后再压缩仍有13M多,上传不了。您先参考一下。


海量数据处理.rar

66.37 KB, 下载次数: 32

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2018-5-12 12:18 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
hugo_huang 发表于 2018-5-4 17:58
这个问题用Power Query解起来比较简单,通过几个步骤的操作,结合List.Transform函数做一下数据转换即可, ...

思路不错,学习了,厉害

TA的精华主题

TA的得分主题

发表于 2022-3-12 16:08 | 显示全部楼层
条件为"B",对应编号为"BH00150",我将所有"BH00150"且条件为"B"的”数据“行进行汇总 汇总哪一列(还是全部列) 你要问人家要说清楚啊

TA的精华主题

TA的得分主题

发表于 2022-3-12 16:09 | 显示全部楼层
hugo_huang 发表于 2018-5-4 17:58
这个问题用Power Query解起来比较简单,通过几个步骤的操作,结合List.Transform函数做一下数据转换即可, ...

我把数据改为大于20万,条件为"B"的”数据“行进行汇总大于20万的好像没拆分

TA的精华主题

TA的得分主题

发表于 2022-3-12 16:28 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
符合条件的B 如果是2行数据,会拆成11行 不知道是不是这样

海量数据处理B好像拆成了11行.zip

454.24 KB, 下载次数: 0

TA的精华主题

TA的得分主题

发表于 2022-3-12 16:28 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2022-3-16 01:57 | 显示全部楼层
用SqlCel函数解决这个问题的具体过程如下:

'使用SqlCel数据必写这一句
Public Function s() As Object
    Set s = Application.COMAddIns("SqlCelAddIn").Object
End Function

Sub 拆分()
    Dim q As Variant  '数据源
    Dim tj As Variant  '匹配条件
    Dim c1 As Variant '符合第一个条件的拆分
    Dim c2 As Variant '符合第二个条件的拆分
    Dim tp As Variant '临时数据集
    Set q = s.rngtoqax(Sheets("数据源").Range("A1").CurrentRegion, True)   '读取数据源
   
    '获取第一个拆分的数据集
    Set c1 = s.qaxselect(q, "条件='A'")
    Set tj = s.rngtoqax(Sheets("拆分条件").Range("A1:D11"), True)
    Set c1 = s.qaxjoin(c1, tj, Array("a.*", "b.比例"), "a.辅助=b.辅助", "inner")
    Set c1 = s.qaxupdate(c1, "a_拆分数据=a_拆分数据*b_比例", "")
   
    '获取大于200000的编号
    Dim bh As Variant
    Set bh = s.qaxsum(q, "拆分数据", "编号")
    Set bh = s.qaxselect(bh, "SUM_拆分数据>200000")
   
    '获取第二个拆分的数据集
    Set c2 = s.qaxselect(q, "条件='B'")
    Set c2 = s.qaxjoin(c2, bh, Array("a.*"), "a.编号=b.编号", "inner")
    Set c2 = s.qaxjoin(c2, tj, Array("a.*", "b.比例"), "a.a_辅助=b.辅助", "inner")
    Set c2 = s.qaxupdate(c2, "a_a_拆分数据=a_a_拆分数据*b_比例", "")
   
    '从原数据集中根据序号剔除掉两个拆分的数据集获得不需要拆分的数据集
    Set tp = s.getcols(c1, False, Array("a_序号"))
    Set tp = s.qaxdistinct(tp, "a_序号")
    Set q = s.qaxjoin(q, tp, Array("a.*", "b.a_序号"), "a.序号=b.a_序号", "left")
    Set q = s.qaxselect(q, "b_a_序号 is null")
   
    Set tp = s.getcols(c2, False, Array("a_a_序号"))
    Set tp = s.qaxdistinct(tp, "a_a_序号")
    Set q = s.qaxjoin(q, tp, Array("a.*", "b.a_a_序号"), "a.a_序号=b.a_a_序号", "left")
    Set q = s.qaxselect(q, "b_a_a_序号 is null")
   
    '将3个数据集写入Excel结果表
    With Sheets("结果")
    s.qaxtorng2 c1, .Range("a1"), True  '写入第一个拆分的数据集
    s.qaxtorng2 c2, .Range("a1048576").End(xlUp).Offset(1, 0), False  '写入第二个拆分的数据集
    s.qaxtorng2 q, .Range("a1048576").End(xlUp).Offset(1, 0), False   '写入不需要拆分的数据集
    End With
End Sub

匹配出来40万行,也就是每一条记录都需要匹配10行。
代码全程运行20-30秒。
附运行结果
由于最大只能上传2M文件,所以结果只保留了20行数据。

注意附件中添加了两个辅助字段,字段名都是辅助,值都为1,如下
图片.png


海量数据处理.rar

1.9 MB, 下载次数: 1

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-20 04:05 , Processed in 0.038061 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表