ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: kaixinbuy

[原创] 分享关于非结构化Excel表格数据整合,抽取的方案

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-7 07:39 | 显示全部楼层
wanghan519 发表于 2023-4-7 07:23
也就是说tablemerge可以自动把不规范的表头规范化,然后自己写的是匹配同一个字段不规范写法的正则表达式。 ...

匹配表头只是最基础的需要的功能,90%的情况下select的正则内容就是字段名,少数情况下像上面的有多行表头。

而我们遇到不规范的1000个Excel Sheet需要整合的时候,最大的困难来自于:一个sheet里有N个可能在任意位置的表格区域。而不是总在第一行就是表头。同时表头里含有大量非目标区域,比如多段备注,不相干的表格区域等。

这时候tablemerge.com的表头匹配+自动化的Layout分析就体现出强大的价值了。

图片1.png
2023-04-07 07-33-05屏幕截图.png
你可以在1000个上面这种messy sheet上,随意select你需要的字段。



TA的精华主题

TA的得分主题

发表于 2023-4-7 08:22 | 显示全部楼层
kaixinbuy 发表于 2023-4-7 07:39
匹配表头只是最基础的需要的功能,90%的情况下select的正则内容就是字段名,少数情况下像上面的有多行表 ...

确实是好思路,只要给出一行正则,既可以规范化表头,又可以遍历cells找到表头的位置,采用sql写确实绝配,pwsh和py也可以用这种思路规范表头同时找表,学到了

TA的精华主题

TA的得分主题

发表于 2023-4-7 11:13 | 显示全部楼层
如何避免表内容中含有字段名的情况

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-7 11:26 | 显示全部楼层
morpheus126 发表于 2023-4-7 11:13
如何避免表内容中含有字段名的情况

这也是表头识别算法的一块功能了。
如果内容行包含了表头行字段的关键字,系统会通过交叉验证去识别和排除它。

TA的精华主题

TA的得分主题

发表于 2023-4-7 12:31 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
如果有的是ACCESS ENGINE的话,记得是不支持11位以上的数字。有些情况下都不敢用SQL了
这种还是自己写的用起来顺手

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-7 14:44 | 显示全部楼层
leolee82 发表于 2023-4-7 12:31
如果有的是ACCESS ENGINE的话,记得是不支持11位以上的数字。有些情况下都不敢用SQL了
这种还是自己写的用 ...

既然已经是access表格了,就不需要上面讨论的这些东西了。不是此处讨论的话题。

TA的精华主题

TA的得分主题

发表于 2023-4-10 09:46 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
kaixinbuy 发表于 2023-4-7 11:26
这也是表头识别算法的一块功能了。
如果内容行包含了表头行字段的关键字,系统会通过交叉验证去识别和排 ...

我也写过类似的东西,但奈何守规矩的人用不上,爱折腾的人千千万。。。
就和GPT一样,其实给专业人士用还是可以的,
但给普通用户用,只会落下一句“怎么那么不智能”的评价。。。不想花时间去争辩

TA的精华主题

TA的得分主题

发表于 2023-4-10 11:28 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
KKKKKKKKKKKKKKKKKKK

多表标题行数相同的合并.rar

23.96 KB, 下载次数: 14

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-10 13:17 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-10 13:19 | 显示全部楼层
morpheus126 发表于 2023-4-10 09:46
我也写过类似的东西,但奈何守规矩的人用不上,爱折腾的人千千万。。。
就和GPT一样,其实给专业人士用 ...

我们主要用于财务,审计中有大量不规范表格,靠手工无法处理完的场景里,非用不可的场景。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-16 10:54 , Processed in 0.046865 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表