ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 634|回复: 1

批量提取并导出很多个 PDF 文件的第一页或最后一页或某些页面

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-5-3 09:11 | 显示全部楼层 |阅读模式
批量提取并导出很多个 PDF 文件的第一页或最后一页或某些页面

TA的精华主题

TA的得分主题

发表于 2023-5-3 09:27 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
你可以使用 Python 中的 PyPDF2 库来批量提取和导出 PDF 文件的特定页面。

首先,你需要安装 PyPDF2 库。可以通过以下命令在命令行中安装它:

复制
pip install PyPDF2
然后,你可以使用以下代码来批量提取 PDF 文件的第一页、最后一页或某些页面:

复制
import os
from PyPDF2 import PdfFileReader, PdfFileWriter

# 定义一个函数,用于提取 PDF 文件的特定页面
def extract_pages(input_path, output_path, pages):
    with open(input_path, 'rb') as input_file, \
         open(output_path, 'wb') as output_file:
        pdf_reader = PdfFileReader(input_file)
        pdf_writer = PdfFileWriter()
        for page in pages:
            pdf_writer.addPage(pdf_reader.getPage(page))
        pdf_writer.write(output_file)

# 定义你要处理的 PDF 文件夹路径、输出文件夹路径、要提取的页面列表
pdf_folder = '/path/to/pdf/folder'
output_folder = '/path/to/output/folder'
pages_to_extract = [0, -1]  # 第一页和最后一页

# 循环遍历 PDF 文件夹里的每个 PDF 文件
for filename in os.listdir(pdf_folder):
    if filename.endswith('.pdf'):
        input_path = os.path.join(pdf_folder, filename)
        output_path = os.path.join(output_folder, f'{filename[:-4]}_extracted.pdf')
        extract_pages(input_path, output_path, pages_to_extract)
在这个示例中,我们定义了一个 extract_pages 函数,它接收输入 PDF 文件路径、输出 PDF 文件路径和要提取的页面列表。该函数使用 PyPDF2 库打开输入 PDF 文件,提取指定页面并将其写入输出 PDF 文件。

然后,我们定义了要处理的 PDF 文件夹路径、输出文件夹路径和要提取的页面列表。在循环遍历 PDF 文件夹中的每个 PDF 文件时,我们调用 extract_pages 函数并将其应用于每个 PDF 文件。

最后,我们可以在输出文件夹中找到提取的 PDF 文件。在这个示例中,我们提取了每个 PDF 文件的第一页和最后一页,但你可以根据需要修改 pages_to_extract 列表来提取其他页面。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-17 03:57 , Processed in 0.026974 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表