https://zhuanlan.zhihu.com/p/619441131
抽取整合几千个布局不规范、表头名称不统一的非结构化Excel表格
1 问题描述:审计项目中,需要合并,抽取,整合上万个表头和内容都不规范的非结构化Excel报价单文件。 抽取目标是包含产品名称,规格型号,价格等指定范围的近100个字段。要求抽取字段尽可能完整。
截取自 www.tablemerge.com
2 需求难点:- 布局不规范:每个Excel文件可能包含数十个Sheet(最多可能4-50个sheet),每个Sheet可能包含不固定位置,不固定表头的不固定表格(同一个表头字段可能有多种写法,例如产品名的表头可能有:产品名称,产品名,ProductName,名称,商品名,MeteralName等)。
- 表头不统一:合并单元格表头、多栏、多行表头、表头顺序不一致、表头写法描述不一致
- 内容不规范:同一个公司名、项目名、产品名、产品规格或属性有多种写法和描述方式
3 解决方案:基于手工复制粘贴整理这些数据,几乎无法完成任务。 - 自动识别复杂表头和行列:通过定制的SQL解析引擎和正则表达式解析引擎,在SQL中嵌入正则表达式实现抽取
- 自动识别合并单元格、多栏、多行表头
- 自动分析文档布局和版面,自动将文档分块和表格抽取
- 一个SQL在上万个不规范的非结构化Excel文档上运行
- 导出成结构化数据
4 开发流程:只需三个步骤,将上万个不规范的非结构化Excel文档抽取成结构化数据,开发时只需写一个SQL,交给定制的非结构化SQL处理引擎。 开发人员只需熟悉SQL和正则表达式即可在上万个非结构化文档上进行预览、开发、跟踪调试、结果导出。 自动进行版面分析、表格区域分割和识别、合并单元格识别、多行多栏表头识别、结构化行列识别。 导出结构化数据到数据库或Excel。 最终只需要几天时间,就抽取整合出干净一致的数百万条数据表格,用于审计业务。
|