ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: 老KD

[求助] 如何用VBA将原PDF重命名以显示PDF内人的姓名

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-3-27 16:54 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
wanghan519 发表于 2024-3-27 13:03
不熟悉写的不好,感觉这样从utf8转gbk好像有点问题,不过也提取到了

老师,能释疑下这句吗?
    Set ex = sh.exec("cmd /c pushd """ & ThisWorkbook.Path & """ & pdftotext -raw -enc UTF-8 Rechnung.pdf -")

TA的精华主题

TA的得分主题

发表于 2024-3-27 17:14 来自手机 | 显示全部楼层
limonet 发表于 2024-3-27 16:54
老师,能释疑下这句吗?
    Set ex = sh.exec("cmd /c pushd """ & ThisWorkbook.Path & """ & pdftote ...

exec里是要执行的外部命令
cmd /c pushd 是先转到当前目录
后面用&连接真正要执行的命令
pdftotext -raw -enc UTF-8 原pdf文件 目标-表示输出到stdout
-raw是指pdf里原本的文本顺序,而不是按显示顺序,文本的位置更固定,方便后面提取
-enc需要指定字符编码为utf8才能提取pdf中的中文
后面可以通过ex.stdout.readall读取,但这里得到的是utf8
而vba自动把它当成gbk解码了,所以需要用adodb.stream先当成gbk写进比特流,还原,再当成utf8读出来

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-3-27 21:44 | 显示全部楼层
wanghan519 发表于 2024-3-27 17:14
exec里是要执行的外部命令
cmd /c pushd 是先转到当前目录
后面用&连接真正要执行的命令

谢谢,还是有很多乱码哦,尤其是中文。

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-3-28 08:58 | 显示全部楼层
wanghan519 发表于 2024-3-26 22:08
pdftotext是从xpdf官网下载的,用来提取PDF中的文字(非图片有可以选中的文字的PDF)
busybox提供了方便 ...

老师,又来麻烦您了不好意思!还烦请您看看,原来我提供给您的这个PDF的投保人姓名在第1页上,您解决了导出姓名的问题,如附件的最后一个数字 2 的魏邦杰。但,现在有的投保人的姓名在第3页(实际上第1页保险合同四个字下面也有投保人姓名,但这姓名可能是在图片上无法导出),在第3页上姓名的我就不知怎么导出了,还麻烦您再编个程序,太谢谢麻烦大师了

导出投保人姓名1.zip

1.49 MB, 下载次数: 5

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-3-28 09:04 | 显示全部楼层
本帖最后由 老KD 于 2024-3-28 09:25 编辑
wanghan519 发表于 2024-3-27 13:03
不熟悉写的不好,感觉这样从utf8转gbk好像有点问题,不过也提取到了

老师,又来麻烦您了不好意思!
1711588651453.jpg
1711588739053.jpg
1711588823538.jpg

TA的精华主题

TA的得分主题

发表于 2024-3-28 09:56 | 显示全部楼层
老KD 发表于 2024-3-28 08:58
老师,又来麻烦您了不好意思!还烦请您看看,原来我提供给您的这个PDF的投保人姓名在第1页上,您解决了导 ...

幸好不是图片,只是正则变化了,一个是投保人姓名,一个是被保险人姓名


test.7z

1.83 MB, 下载次数: 12

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-3-28 10:28 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 老KD 于 2024-3-28 10:30 编辑
老KD 发表于 2024-3-28 08:58
老师,又来麻烦您了不好意思!还烦请您看看,原来我提供给您的这个PDF的投保人姓名在第1页上,您解决了导 ...

谢谢老师,您的程序太强大了!!!谢谢大师:handshake

TA的精华主题

TA的得分主题

发表于 2024-3-28 11:18 | 显示全部楼层
wanghan519 发表于 2024-3-27 17:14
exec里是要执行的外部命令
cmd /c pushd 是先转到当前目录
后面用&连接真正要执行的命令

老师,请教下:
1、过程tt,是不生成text文件,而是直接生成流后转码,还是会有错码,尤其是中文;
2、过程low,是曲线一点,pdftotext→text→load→转码→无乱码。
问题1能改进吗?谢谢。

test.zip

662.98 KB, 下载次数: 7

TA的精华主题

TA的得分主题

发表于 2024-3-28 12:19 来自手机 | 显示全部楼层
本帖最后由 wanghan519 于 2024-3-28 13:57 编辑

..........

TA的精华主题

TA的得分主题

发表于 2024-3-28 12:33 来自手机 | 显示全部楼层
limonet 发表于 2024-3-28 11:18
老师,请教下:
1、过程tt,是不生成text文件,而是直接生成流后转码,还是会有错码,尤其是中文;
2、 ...

比如,在pdftotext后面加上管道,busybox iconv -f utf-8 -t gbk -c,这样在ex.stdout.readall读出来就已经是gbk没有乱码
或者,调用论坛里介绍的其他pdf库,或者word打开pdf,也可以方便的得到文本内容
其实方法2更好,先写入文本,再读取

最近喜欢在wps和Linux里搞,想要兼容这些,发现把外部调用这些操作都放到httpd的cgi-bin里似乎更方便,简单的说就是把这些外部调用包括转编码都写在外部脚本里,就像最开始那种同时兼容win和Linux的脚本,然后Excel或wps通过发http请求传参数获取结果,相比wscript.shell有很多好处

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-17 21:57 , Processed in 0.050960 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表