ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 659|回复: 3

[求助] python 提取pdf报关单中的文字

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-2-22 19:35 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
我用pymupdf库提取的时候 主要问题是 项号 商品编码 商品名称及规格型号 ****征免这一行 不能与 底下的数据对应起来(底下的数据不是按照从左到右的顺序)有碰到同样问题的小伙伴 回复下谢谢大家

a.rar

439.12 KB, 下载次数: 19

TA的精华主题

TA的得分主题

发表于 2024-2-22 20:56 | 显示全部楼层
我用poppler试了一下,不添加-raw参数时数据是乱的,添加-raw后数据比较有规律,不知道那个库是否有类似的参数
-raw                 : keep strings in content stream order


图片.jpg

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-2-23 17:53 | 显示全部楼层
wanghan519 发表于 2024-2-22 20:56
我用poppler试了一下,不添加-raw参数时数据是乱的,添加-raw后数据比较有规律,不知道那个库是否有类似的 ...

提取的数据 巴西还是在最左边,最左边应该是 项号的数据(第一列) 第二列是商品编码,

TA的精华主题

TA的得分主题

发表于 2024-2-26 15:17 | 显示全部楼层
https://zhuanlan.zhihu.com/p/518092694
自己慢慢调参数,不然直接合并结果list也可以。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-13 15:06 , Processed in 0.032924 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表