ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
Python自动化办公应用大全 Excel 2021函数公式学习大典 Kutools for Office 套件发布 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: 风雨相随3

[求助] vba提取pdf内容,并根据字符提取对应数据

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-3-15 18:28 | 显示全部楼层
excel玉米 发表于 2023-3-15 12:02
将发票读取成txt字符串,然后分割字符串,针对发票内容,将相应部分写入表中。
故,此法只能针对特定相同 ...

微信图片_20230315182513.rar (40.58 KB, 下载次数: 23) 找不到库。

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-3-15 18:35 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

微信图片_20230315183324.rar (52.71 KB, 下载次数: 16) 对话框无法执行。

TA的精华主题

TA的得分主题

发表于 2023-3-15 21:42 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2023-3-16 11:56 | 显示全部楼层
本帖最后由 opiona 于 2023-3-16 11:58 编辑

可以不安装浏览器
做了一个VBA的插件 可以试试 提取文本   根据文本确定位置等

https://club.excelhome.net/thread-1654951-1-1.html

163003mq7vb1s8m2ks1s8v.png

TA的精华主题

TA的得分主题

发表于 2023-3-20 19:14 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
LIUZHU 发表于 2023-3-14 23:36
哦,敢问怎么读取是PDF?

直接word打开即可 word(2016以及以上)

TA的精华主题

TA的得分主题

发表于 2023-3-20 19:17 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
风雨相随3 发表于 2023-3-15 07:34
老师:
    这一段怎么改?   
      With sht

直接word打开即可 word(2016以及以上)
1.png

TA的精华主题

TA的得分主题

发表于 2023-3-21 08:48 | 显示全部楼层
perfect131 发表于 2023-3-20 19:17
直接word打开即可 word(2016以及以上)

WPS不行,我单位只能用WPS

TA的精华主题

TA的得分主题

发表于 2023-3-21 08:53 | 显示全部楼层
电子发票的格式是统一的,你可以用PowerQuery做内容的提取

TA的精华主题

TA的得分主题

发表于 2023-3-21 15:18 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
以下是一段VBA代码,可以使用Adobe Acrobat Pro DC COM对象库提取PDF文件内容并根据特定字符提取对应数据:

代码仅供参考!!!

Sub ExtractPDFData()
    Dim acApp As Acrobat.AcroApp
    Dim acPDDoc As Acrobat.AcroPDDoc
    Dim acPDPage As Acrobat.AcroPDPage
    Dim strPDFFilePath As String
    Dim strSearchString As String
    Dim strData As String
   
    '设置PDF文件路径和搜索字符串
    strPDFFilePath = "C:\example.pdf"
    strSearchString = "Data:"
   
    '创建Acrobat对象
    Set acApp = CreateObject("AcroExch.App")
    Set acPDDoc = CreateObject("AcroExch.PDDoc")
   
    '打开PDF文件
    If acPDDoc.Open(strPDFFilePath) Then
        '循环遍历每个页面
        For i = 0 To acPDDoc.GetNumPages - 1
            Set acPDPage = acPDDoc.AcquirePage(i)
            
            '获取页面文本
            strData = acPDPage.GetWordText()
            
            '根据搜索字符串提取数据
            If InStr(strData, strSearchString) > 0 Then
                startIndex = InStr(strData, strSearchString) + Len(strSearchString)
                endIndex = InStr(startIndex, strData, vbCr)
                extractedData = Mid(strData, startIndex, endIndex - startIndex)
                Debug.Print extractedData
            End If
            
            Set acPDPage = Nothing
        Next i
        acPDDoc.Close
    End If
   
    Set acPDDoc = Nothing
    Set acApp = Nothing
End Sub

上面的代码首先声明了一些变量,包括Acrobat.AcroApp,Acrobat.AcroPDDoc和Acrobat.AcroPDPage,用于与Adobe Acrobat Pro DC COM对象库进行交互。然后设置PDF文件路径和搜索字符串。在For循环中,遍历每一页,并获取其文本。然后使用InStr函数查找搜索字符串在文本中的位置,并使用Mid函数提取对应数据。最后,将提取的数据输出到VBA的调试窗口中(使用Debug.Print函数)。

请注意,使用这段代码需要安装Adobe Acrobat Pro DC,并启用其COM对象库。此外,对于包含复杂格式的PDF文件,文本提取可能不是很准确,需要根据实际情况进行调整。

TA的精华主题

TA的得分主题

发表于 2023-8-20 00:35 | 显示全部楼层
语虚何以言知 发表于 2023-3-15 11:52
前段时间刚用Python做了个pdf读取文本信息的,,有兴趣可私信联系我

你好,能把python读取PDF的代码分享下吗
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-12-14 06:39 , Processed in 0.032625 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表