ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 2562|回复: 15

请教各位大神关于vba取PDF文本

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-9-30 18:03 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 tspliu 于 2023-9-30 19:08 编辑

Sub 输出pdf()
Set AcroApp = CreateObject("AcroExch.App")
Set AcroAVDoc = CreateObject("AcroExch.AVDoc")
pdfFolder = "C:\MyPDF.pdf"
s = AcroAVDoc.Open(pdfFolder, "")
Set AcroPDDoc = AcroAVDoc.GetPDDoc
PageNum = AcroPDDoc.GetNumPages
Set Page1 = AcroPDDoc.AcquirePage(0)
'Debug.Print Page1.GetText
'请问这里怎么什么可以debug.print 输出Page1的文本,搜了几个都不行,我现在只能另存为txt再读取Txt
AcroPDDoc.Close
AcroAVDoc.Close (0)
AcroApp.Exit

Set AcroPDDoc = Nothing
Set AcroAVDoc = Nothing
Set AcroApp = Nothing

End Sub

TA的精华主题

TA的得分主题

发表于 2023-9-30 21:15 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
Debug.Print只是显示而已

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-9-30 21:38 | 显示全部楼层
ykcbf1100 发表于 2023-9-30 21:15
Debug.Print只是显示而已

  不管是输出还是显示,百度到的 gettex、gettext,gettextcontents等等都提示没有该属性或方法,百度CAcroPDPage有哪些方法和属性又搜不到

TA的精华主题

TA的得分主题

发表于 2023-9-30 21:48 | 显示全部楼层
Public Function GetPDFtext(filePath As String, fileName As String)
'读取PDF-解析内容,得到页码
'filePath PD完整地址,例如:D:\OK, fileName 文件名称,例如: a.pdf
Dim AC_PD As New Acrobat.acroPDDoc
Dim AC_Hi As Acrobat.AcroHiliteList
Dim AC_PG As Acrobat.AcroPDPage
Dim Ct_Page As Long
Dim i As Long, j As Long
Dim T_Str As String

Set AC_PD = New Acrobat.acroPDDoc 'PDF文件
Set AC_Hi = New Acrobat.AcroHiliteList 'PDF文本字符
AC_Hi.Add 0, 32767 '限制文本字符个数
            With AC_PD
                markfile = filePath & "\" & fileName  '需要的文件名
                    .Open markfile '打开PDF文件
                        Ct_Page = .GetNumPages '得到PDF文件页数
                        If Ct_Page = -1 Then 'pdf文件页数不对
                            .Close
                            Set AC_PGTxt = Nothing
                            Set AC_PG = Nothing
                            Set AC_Hi = Nothing
                            Set AC_PD = Nothing
                            Exit Function
                        End If
                            Ct_Page = .GetNumPages '得到PDF文件页数
                           
                        For i = 1 To Ct_Page   'PDF第一页开始...
                            T_Str = ""
                            Set AC_PG = .AcquirePage(i - 1) '得到当前页
                            Set AC_PGTxt = AC_PG.CreateWordHilite(AC_Hi) '得到当期文字列表?
                            If Not AC_PGTxt Is Nothing Then
                                With AC_PGTxt
                                    For j = 0 To .GetNumText - 1
                                        T_Str = T_Str & .GetText(j) '获得文本
                                    Next j
                                End With
                            End If
                            ActiveSheet.Range("D" & i + NUM) = i
                            ActiveSheet.Range("E" & i + NUM) = T_Str
                            ActiveSheet.Range("F" & i + NUM) = Application.WorksheetFunction.Clean(WorksheetFunction.Trim(T_Str))
                                                      
                        Next i
                        .Close
            End With
                            Set AC_PGTxt = Nothing
                            Set AC_PG = Nothing
                            Set AC_Hi = Nothing
                            Set AC_PD = Nothing
            
End Function

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2023-9-30 21:57 | 显示全部楼层
tspliu 发表于 2023-9-30 21:38
不管是输出还是显示,百度到的 gettex、gettext,gettextcontents等等都提示没有该属性或方法,百度 ...

试试这个AI写的代码:

  1. Sub ExtractPDFText()
  2.         Dim filePath As String
  3.         Dim fileName As String
  4.         Dim pdfApp As Object
  5.         Dim pdfDoc As Object
  6.         Dim pageNumber As Integer
  7.         Dim pageText As String

  8.         ' 设置PDF文件路径和文件名
  9.         filePath = "C:\path\to\your\pdf\file.pdf"
  10.         fileName = "file.pdf"

  11.         ' 创建PDF应用对象
  12.         Set pdfApp = CreateObject("AcroExch.App")

  13.         ' 打开PDF文件
  14.         Set pdfDoc = pdfApp.GetActiveDoc(filePath)

  15.         ' 遍历PDF的每一页
  16.         For pageNumber = 1 To pdfDoc.GetNumPages
  17.                 ' 提取当前页的文本
  18.                 pageText = pdfDoc.GetPageContent(pageNumber)

  19.                 ' 在此处添加处理文本的代码

  20.         Next pageNumber

  21.         ' 关闭PDF文件
  22.         pdfDoc.Close

  23.         ' 释放对象
  24.         Set pdfDoc = Nothing
  25.         Set pdfApp = Nothing

  26. End Sub
复制代码


评分

2

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-9-30 22:34 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
tspliu 发表于 2023-9-30 21:38
不管是输出还是显示,百度到的 gettex、gettext,gettextcontents等等都提示没有该属性或方法,百度 ...

多谢大神,今天困扰了我一晚上,终于睡前解决了。
无标题.jpg

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-9-30 22:41 | 显示全部楼层
Sub 取pdf文本()
Set AcroApp = CreateObject("AcroExch.App")
Set AcroAVDoc = CreateObject("AcroExch.AVDoc")
pdfFolder = "C:\1.pdf"
s = AcroAVDoc.Open(pdfFolder, "")
Set AC_Hi = CreateObject("AcroExch.HiliteList")
AC_Hi.Add 0, 32767
Set AcroPDDoc = AcroAVDoc.GetPDDoc
'PageNum = AcroPDDoc.GetNumPages
Set AC_PG = AcroPDDoc.AcquirePage(0)
Set AC_PGTxt = AC_PG.CreateWordHilite(AC_Hi)
       If Not AC_PGTxt Is Nothing Then
            With AC_PGTxt
                For j = 0 To .GetNumText - 1
                    T_str = T_str & .GetText(j) '获得文本
                Next j
            End With
        End If
Debug.Print T_str
AcroPDDoc.Close
AcroAVDoc.Close 0
AcroApp.Exit
Set AcroPDDoc = Nothing
Set AcroAVDoc = Nothing
Set AcroApp = Nothing
End Sub

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-10-1 10:35 | 显示全部楼层
ykcbf1100 发表于 2023-9-30 21:57
试试这个AI写的代码:

AI的就不用试了,我试了几十次,没一个正确的

TA的精华主题

TA的得分主题

发表于 2023-10-9 13:45 来自手机 | 显示全部楼层
tspliu 发表于 2023-9-30 22:41
Sub 取pdf文本()
Set AcroApp = CreateObject("AcroExch.App")
Set AcroAVDoc = CreateObject("AcroExch. ...

请问下我2010版本的Excel一直在 创建AcroEXch.APP这边报无法创建部件,是什么原因呢

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-10-9 16:09 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
yang1992820 发表于 2023-10-9 13:45
请问下我2010版本的Excel一直在 创建AcroEXch.APP这边报无法创建部件,是什么原因呢

你安装acrobat了吗
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-19 09:40 , Processed in 0.037872 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表