ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 87|回复: 3

求一个关于PDF自动化的软件

[复制链接]

TA的精华主题

TA的得分主题

发表于 2025-1-2 11:07 | 显示全部楼层 |阅读模式
就是工作中遇到打印票据回单的问题,银行导出的票据回单为PDF格式。切有很多没用的页面。。有用的页面可能是1-3,7-88,12-15,没有页码规律,发现一个内容的规律就是我需要的页面,都含有关键字 转让。现就想实现。能一下子就根据关键字,全部页面查找到都是在多少页。然后能按顺序从新组和成一个PDF 。。如一页有好多关键字,本页只需查找一次就可。。不只到发贴到哪个分类里,只听说过这个交流论坛。拜托

TA的精华主题

TA的得分主题

发表于 2025-1-2 19:21 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
发个测试文件和关键词。

TA的精华主题

TA的得分主题

发表于 2025-1-3 00:07 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
  1. import fitz  # PyMuPDF

  2. # 打开原始PDF文件
  3. doc = fitz.open("文件名.pdf")

  4. # 定义要搜索的关键词列表
  5. keywords = ["关键字1", "关键字2", "关键字3"]

  6. # 存储包含关键词的页面索引
  7. pages_to_copy = []

  8. for page_num in range(len(doc)):
  9.     page = doc.load_page(page_num)
  10.     text = page.get_text("text")
  11.     # 将文本转换为小写,以便不区分大小写地搜索
  12.     text_lower = text.lower()
  13.     for keyword in keywords:
  14.         if keyword.lower() in text_lower:
  15.             pages_to_copy.append(page_num)
  16.             break  # 一旦找到一个关键词,就不再检查其他关键词

  17. # 创建一个新的PDF文档
  18. new_doc = fitz.open()

  19. for page_num in pages_to_copy:
  20.     # 将页面插入到新文档中
  21.     new_doc.insert_pdf(doc, from_page=page_num, to_page=page_num)

  22. # 保存新的PDF文件
  23. new_doc.save("filtered_document.pdf")
复制代码

TA的精华主题

TA的得分主题

 楼主| 发表于 2025-1-3 22:59 | 显示全部楼层
本帖最后由 wzwln 于 2025-1-3 23:01 编辑

强强强,我从py一点不懂,百度学习终于运行了。是我要的意思。

不过能不能脱离py.,或是生成一个可执行文件。。像  文件名.pdf .关键字1 2 3还有输出文件名这些,还有输入输出路径等。能不能做一个图形界面。方便使用。


还有就是保留这个的基础上。在做一个扩展选项。 比如。必须满足 A+B关键词。或是 慢足A 或 B
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-5 08:47 , Processed in 0.020247 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表