ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 205|回复: 9

提取PDF文件中有用文字并重新命名原PDF文件名

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-9-29 12:51 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
一个文件夹后面有许多PDF文件,一个一个,那么我要通过编好这个程序来逐个打开每一个PDF文件。然后读取有用的信息有三个,(比如:第一条 合同时间,第二条乙方姓名,第三条合同金额 )把提取出这三个有用的信息变成新的文件名,把这个PDF文件替换掉,文件名替换掉。就挨个这样执行下来。



这样的代码如何编写

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-9-29 13:03 | 显示全部楼层
Sub RenamePDFs()     Dim objFSO As Object     Dim objFolder As Object     Dim objFile As Object     Dim objPDFReader As Object ' 假设的PDF阅读器对象     Dim strContractTime As String     Dim strPartyBName As String     Dim strContractAmount As String     Dim strNewFileName As String          ' 创建文件系统对象     Set objFSO = CreateObject("Scripting.FileSystemObject")          ' 设置文件夹路径     Dim strFolderPath As String     strFolderPath = "C:\Your\PDF\Folder\" ' 请替换为您的文件夹路径          ' 获取文件夹对象     Set objFolder = objFSO.GetFolder(strFolderPath)          ' 遍历文件夹中的PDF文件     For Each objFile In objFolder.Files         If LCase(objFSO.GetExtensionName(objFile.Name)) = "pdf" Then             ' 初始化PDF阅读器对象             Set objPDFReader = CreateObject("YourPDFReaderObjectModel.Object") ' 请替换为您的PDF阅读器对象                          ' 打开PDF文件             objPDFReader.Open objFile.Path                          ' 读取PDF文件中的信息             ' 注意:以下方法需要根据您的PDF阅读器API进行调整             strContractTime = objPDFReader.GetInfo("合同时间")             strPartyBName = objPDFReader.GetInfo("乙方姓名")             strContractAmount = objPDFReader.GetInfo("合同金额")                          ' 构建新的文件名             strNewFileName = strPartyBName & "-" & strContractTime & "-" & strContractAmount & ".pdf"                          ' 重命名文件             Name objFile.Path As strFolderPath & strNewFileName                          ' 关闭PDF阅读器对象             objPDFReader.Close             Set objPDFReader = Nothing         End If     Next objFile          ' 清理     Set objFile = Nothing     Set objFolder = Nothing     Set objFSO = Nothing End Sub

TA的精华主题

TA的得分主题

发表于 2024-9-29 13:06 | 显示全部楼层
应该可用DO loop 配合dir 循环 ,用Word打开,正则提取数据, name 改名字

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-9-29 13:07 | 显示全部楼层
Sub RenamePDFs()
    Dim objFSO As Object
    Dim objFolder As Object
    Dim objFile As Object
    Dim objPDFReader As Object ' 假设的PDF阅读器对象
    Dim strContractTime As String
    Dim strPartyBName As String
    Dim strContractAmount As String
    Dim strNewFileName As String
   
    ' 创建文件系统对象
    Set objFSO = CreateObject("Scripting.FileSystemObject")
   
    ' 设置文件夹路径
    Dim strFolderPath As String
    strFolderPath = "C:\Your\PDF\Folder\" ' 请替换为您的文件夹路径
   
    ' 获取文件夹对象
    Set objFolder = objFSO.GetFolder(strFolderPath)
   
    ' 遍历文件夹中的PDF文件
    For Each objFile In objFolder.Files
        If LCase(objFSO.GetExtensionName(objFile.Name)) = "pdf" Then
            ' 初始化PDF阅读器对象
            Set objPDFReader = CreateObject("YourPDFReaderObjectModel.Object") ' 请替换为您的PDF阅读器对象
            
            ' 打开PDF文件
            objPDFReader.Open objFile.Path
            
            ' 读取PDF文件中的信息
            ' 注意:以下方法需要根据您的PDF阅读器API进行调整
            strContractTime = objPDFReader.GetInfo("合同时间")
            strPartyBName = objPDFReader.GetInfo("乙方姓名")
            strContractAmount = objPDFReader.GetInfo("合同金额")
            
            ' 构建新的文件名
            strNewFileName = strPartyBName & "-" & strContractTime & "-" & strContractAmount & ".pdf"
            
            ' 重命名文件
            Name objFile.Path As strFolderPath & strNewFileName
            
            ' 关闭PDF阅读器对象
            objPDFReader.Close
            Set objPDFReader = Nothing
        End If
    Next objFile
   
    ' 清理
    Set objFile = Nothing
    Set objFolder = Nothing
    Set objFSO = Nothing
End Sub   这样不知行不

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-9-29 13:10 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
HANERBABA 发表于 2024-9-29 13:06
应该可用DO loop 配合dir 循环 ,用Word打开,正则提取数据, name 改名字

能写一下代码吗

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-9-29 13:17 | 显示全部楼层
Sub RenamePDFFiles()
    Dim ws As Worksheet
    Dim targetFolder As String
    Dim fileName As String
    Dim合同时间 As String
    Dim乙方姓名 As String
    Dim合同金额 As String
    Dim newFileName As String
   
    ' 设置包含PDF文件的文件夹路径
    targetFolder = "C:\Path\To\Your\Pdf\Folder\"
   
    ' 确保路径以反斜杠结束
    If Right(targetFolder, 1) <> "\" Then targetFolder = targetFolder & "\"
   
    ' 获取第一个PDF文件的文件名
    fileName = Dir(targetFolder & "*.pdf")
   
    ' 循环遍历所有PDF文件
    Do While fileName <> ""
        ' 提取PDF文件中的信息(这里需要您自行实现ExtractPDFInfo函数)
        合同时间 = ExtractPDFInfo(targetFolder & fileName, "合同时间")
        乙方姓名 = ExtractPDFInfo(targetFolder & fileName, "乙方姓名")
        合同金额 = ExtractPDFInfo(targetFolder & fileName, "合同金额")
        
        ' 构建新的文件名
        newFileName = 合同时间 & " " & 乙方姓名 & " " & 合同金额 & ".pdf"
        
        ' 重命名文件
        Name targetFolder & fileName As targetFolder & newFileName
        
        ' 获取下一个PDF文件的文件名
        fileName = Dir
    Loop
End Sub

' 以下函数是示例,您需要根据实际情况实现PDF内容提取
Function ExtractPDFInfo(pdfPath As String, infoType As String) As String
    ' 这里是伪代码,需要您根据实际情况使用ActiveX控件或其他方法来实现
    ' 例如使用Adobe Acrobat SDK, PDFtk服务器或其他PDF处理库
    Dim info As String
    ' ... PDF内容提取逻辑 ...
    ' 基于infoType返回相应的信息
    ExtractPDFInfo = info
End Function

TA的精华主题

TA的得分主题

发表于 2024-9-29 14:04 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
mcy318 发表于 2024-9-29 13:10
能写一下代码吗

我也是小白,

TA的精华主题

TA的得分主题

发表于 2024-9-29 15:02 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
借用addobe识别提取出信息然后重命名

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-9-29 15:49 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2024-9-29 16:19 | 显示全部楼层
mcy318 发表于 2024-9-29 15:49
有好几千个文件

摸拟一个附件上传,也许有会的老师会出手解决。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-19 05:51 , Processed in 0.048831 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表