ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 841|回复: 11

学习笔记-中行数据流水清洗

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-3-29 14:30 | 显示全部楼层 |阅读模式
本帖最后由 autumnalRain 于 2024-4-3 10:14 编辑

中行数据流水清洗,每四行作为一条数据,且标题独占两行,需要将清洗成:全表只有一行标题,且每行一条数据
  1. # -*- coding: UTF-8 -*-


  2. #导入pandas
  3. import pandas as pd

  4. #指定数据源路径
  5. path='DataSource.xlsx'

  6. #读入数据源工作表
  7. df = pd.read_excel(path,sheet_name='CTIS系统交易流水',header=None)

  8. # 删除包含NaN空行
  9. df.dropna(axis=0,how='all',inplace=True)

  10. #新建空白列表
  11. new_rows = []

  12. #将第1、3行纵向合起来作为分析结果的标题
  13. Title = pd.concat([df.iloc[0, 0:14], df.iloc[2, 0:14]], axis=0)
  14. new_rows.append(Title)

  15. #将数据区每两行连接起来作为分析结果的数据区
  16. for i in range(1,len(df),4):
  17.     data_row=pd.concat([df.iloc[i, 0:14], df.iloc[i+2, 0:14]], axis=0)
  18.     new_rows.append(data_row)
  19. new_df = pd.concat(new_rows, axis=1).T

  20. #将转换结果写入到原工作簿的新建工作表RESULT中
  21. with pd.ExcelWriter(path,engine='openpyxl',mode='a') as writer:
  22.     new_df.to_excel(writer, sheet_name='RESULT', index=False, header=False)
复制代码



中行数据清洗.jpg

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-3-29 14:33 | 显示全部楼层
本帖最后由 autumnalRain 于 2024-3-29 16:48 编辑

VBA方法无法贴代码,全是乱码。截图


VBA方法.jpg

TA的精华主题

TA的得分主题

发表于 2024-4-1 12:15 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-4-1 20:26 | 显示全部楼层
shsharp 发表于 2024-4-1 12:15
雕虫小技 菜的一批

非专业,只是工作中遇到的问题怕日后忘了,见笑

TA的精华主题

TA的得分主题

发表于 2024-4-2 08:39 | 显示全部楼层
这个问题感觉用Python和VBA都很繁琐,试试JSA

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-4-2 20:11 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
这很明显用数组方法可以轻松完成,非常不理解为什么要在for循环里频繁操作range对象,数据量一多这个弹窗肯定会弹出来

685a8e158afd6252.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-4-3 10:11 | 显示全部楼层
本帖最后由 autumnalRain 于 2024-4-9 11:32 编辑
仙女配凡人 发表于 2024-4-2 20:11
这很明显用数组方法可以轻松完成,非常不理解为什么要在for循环里频繁操作range对象,数据量一多这个弹窗肯 ...

多年前的文档,只是现在想学下Python,学习笔记。

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-4-3 10:12 | 显示全部楼层
LIUZHU 发表于 2024-4-2 08:39
这个问题感觉用Python和VBA都很繁琐,试试JSA

谢谢指点,学文科的,只是工作中遇到,python入门,弄个学习笔记

TA的精华主题

TA的得分主题

发表于 2024-4-26 08:43 | 显示全部楼层
这种数据处理转换,用pq也可以的,感觉更易操作.

TA的精华主题

TA的得分主题

发表于 2024-4-28 14:29 | 显示全部楼层
autumnalRain 发表于 2024-4-3 10:12
谢谢指点,学文科的,只是工作中遇到,python入门,弄个学习笔记

engine='openpyxl',这句貌似不需要吧,应该'openpyxl'就是engine的默认参数值
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-21 17:16 , Processed in 0.048178 second(s), 17 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表