ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: opiona

[分享] PDF插件 for VBA 合并,提取,旋转等

  [复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-5-15 11:18 | 显示全部楼层
本帖已被收录到知识树中,索引项:其他编程应用
xiao99hui 发表于 2023-5-15 10:07
这个只能输出文本的,如果是图片里的文字能输出嘛!

图片中的文字 不能输出
就是扫描件的 文本 输出也不能保证准确性
建议使用ABBYY 进行识别

TA的精华主题

TA的得分主题

发表于 2023-5-15 15:20 | 显示全部楼层
opiona 发表于 2023-5-15 11:18
图片中的文字 不能输出
就是扫描件的 文本 输出也不能保证准确性
建议使用ABBYY 进行识别

使用ABBYY,有没有vba调用ABBYY的用法

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-5-15 21:54 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2023-6-8 09:22 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 语虚何以言知 于 2023-6-8 09:25 编辑
opiona 发表于 2023-3-6 10:58
如果输出excel 或者word 还要添加引用
不是所有电脑都有
所以还是输出为文本文件, 然后自己写代码转换到e ...

可以添加到提取pdf文本输出到数组吗?

如果可以就太好了,我一个xlsm整合全部功能了

现在提取pdf的还得用python写(公司不允许安装盗版Acrobat这个没法用)

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-6-8 10:31 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
语虚何以言知 发表于 2023-6-8 09:22
可以添加到提取pdf文本输出到数组吗?

如果可以就太好了,我一个xlsm整合全部功能了

现在是输出到文本文件的
你可以从文本文件中读取到数组啊

TA的精华主题

TA的得分主题

发表于 2023-6-8 17:56 | 显示全部楼层
opiona 发表于 2023-6-8 10:31
现在是输出到文本文件的
你可以从文本文件中读取到数组啊

我的想法是流控也清晰些,也能节约代码量

后来仔细想想,大佬说的也是

谢谢

TA的精华主题

TA的得分主题

发表于 2023-6-8 20:11 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
大佬,请问下ExtractTextFromPDF提取PDF有页数的限制吗?

我提取的PDF文本可能有几十页的

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-6-8 20:35 | 显示全部楼层
语虚何以言知 发表于 2023-6-8 20:11
大佬,请问下ExtractTextFromPDF提取PDF有页数的限制吗?

我提取的PDF文本可能有几十页的

你测试一下吧  
我代码内没有限制的!

TA的精华主题

TA的得分主题

发表于 2023-7-2 18:05 | 显示全部楼层
opiona 发表于 2023-6-8 20:35
你测试一下吧  
我代码内没有限制的!

首先感谢大佬用心辛苦做的这个PDF库,代码略改下就可以直接应用,用的很省心

我主要用来做货运的数电发票电子件配对[xml+zip(xml)+xlsx]的配对,并且配对成功后批量添加水印按顺序打印的
之前pdf的部分是用python做的Onefile的exe,然后用vba调用, 虽然能用,但是不能流畅融入到我整个项目流程中去
关于大佬库我主要用了3个功能,给大佬汇报下

  • 添加文本:非常好用
  • 合并pdf:非常好用
  • 提取文本:我的项目中提取pdf版本数电发票内容与xml版本比对,目前最大的pdf就4页,完全一致



  关于提取文本,反馈一个问题,《2014版新企业会计准则.pdf》测试了不知道为何,总少了最后一页

  1. Sub CC_提取PDF文本()
  2.    
  3.     Dim PathPDF, PathSave, StrPages, StrArea, ZCM As String
  4.     Dim BL As Boolean

  5.     Rem 先注册DLL文件  执行BAT文件即可:  自动注册类库_32_64位_运行2次
  6.     Rem  注册成功后 其实可以在引用中找到: GTDPDFPlugIn
  7.     Dim PDFDLL As Object
  8.     Rem 创建函数类对象 CreateObject  不需要提前引用
  9.     Set PDFDLL = CreateObject("GTDPDFPlugIn.PDFClass")    'DLL文件内Class的名称 现在如无意外,就可以创建一个MyDLLClass对象,YEAH!
  10.    
  11.         
  12.     Rem 参数值 见上方的说明
  13.     PathPDF = ThisWorkbook.Path & "\2014版新企业会计准则.PDF"
  14.     PathSave = ThisWorkbook.Path & "\2014版新企业会计准则.txt"
  15.    
  16.     StrPages = ""
  17.     StrArea = ""
  18.    
  19.     ZCM = "QQ14885553"
  20.     PassWord = ""
  21.    
  22.     BL = PDFDLL.ExtractTextFromPDF(PathPDF:=PathPDF, PathSave:=PathSave, StrPages:=StrPages, StrArea:=StrArea, PassWord:=PassWord, ZCM:=ZCM)
  23.     Set PDFDLL = Nothing
  24.     MsgBox BL
  25.    
  26. End Sub
复制代码


pdf见网盘
链接: https://pan.baidu.com/s/1JRKBt3Z-X0RosSkt8g1P1A?pwd=cixh 提取码: cixh 复制这段内容后打开百度网盘手机App,操作更方便哦
pdf的截图
image.jpg
提取的txt截图

image.png

可见代码转出来少了最后一页,我当时另外找了一个文件比这个还大,但是提取出来正常。
不知道是不是这个pdf文件本身的原因还是其他的原因,望大佬有时间测试下。

再次感谢大佬的库






   





TA的精华主题

TA的得分主题

 楼主| 发表于 2023-7-3 12:27 | 显示全部楼层
语虚何以言知 发表于 2023-7-2 18:05
首先感谢大佬用心辛苦做的这个PDF库,代码略改下就可以直接应用,用的很省心

我主要用来做货运的数电发 ...

测试了一下   最后一页 只提取到:  www.TopSage.com
你可以将 StrPages  = "178"  试试
其他内容未提取到  原因没找到

评分

1

查看全部评分

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-5-21 13:32 , Processed in 0.040758 second(s), 14 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表