ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 563|回复: 4

python如何批量提取word文档标题

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-9-15 21:49 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
求助下大佬,目前没有思路。场景如下:工作中会收到word文档或者pdf文档,pdf有的是扫描版,有的是可编辑文字版,另外从纸质版文件从打印机扫描到电脑是pdf扫描版,现在需要提取文章的题目并实现对文件重命名。目前我大概思路是将所有文件都用wps转换回归到word格式,再想办法提取,但是有个问题,文章标题几乎都在第一页这是确定的,字体不固定,字号比正文内容大,有的会粗点,而且有些标题带有数字和书名号单双引号等等特殊符号,并且有些标题存在换行,最多3行,还有个难题就是有的文档带有红头单位名称+标题然+正文,有的是直接标题+正文,大家有什么比较好的思路吗

TA的精华主题

TA的得分主题

发表于 2023-9-16 09:30 来自手机 | 显示全部楼层
提取第一页全部内容

TA的精华主题

TA的得分主题

发表于 2023-9-16 15:05 | 显示全部楼层
前几天学过,python有个模块,python-office,可以一键将所有的pdf转成word格式,再提取一下。注意是mac不能使用。
至于标题的话,目前不好判断

TA的精华主题

TA的得分主题

发表于 2023-9-20 20:08 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2024-1-3 09:17 | 显示全部楼层
Python可以转换PDF,如果可以,这个值得学习,但是本人对Python目前处于初学者,坐等Python高手的解答。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-13 15:23 , Processed in 0.029779 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表