ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 1143|回复: 12

[求助] 提取PDF文件中的表格

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-1-21 04:37 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 幽谷醉翁 于 2024-1-21 04:57 编辑

《Python 自动化办公应用大全(ChatGPT版)》中的例子


import os
import tabula
import pandas as pd
src_fname = 'Demo-Table.pdf'
src_path = os.path.dirname(__file__)
src_file = os.path.join(src_path, src_fname)
dest_file = src_file.replace('.pdf', '.xlsx')
dfs = tabula.read_pdf(src_file, pages='all')
with pd.ExcelWriter(dest_file) as xl_writer:
    for i, df in enumerate(dfs):
        df.to_excel(xl_writer, index=False,
                    sheet_name=f'Table{i+1}')

代码调试

    dfs = tabula.read_pdf(src_file, pages='all')
AttributeError: module 'tabula' has no attribute 'read_pdf'

我已经两次重新安装了tabula库,可是还是报错
不知道原因何在,请高手指点!

提取PDF文件中的表格.zip

67.07 KB, 下载次数: 21

TA的精华主题

TA的得分主题

发表于 2024-1-21 08:29 来自手机 | 显示全部楼层
根据搜索,需要安装tabula-py而不是tabula,然后from tabula.io import read_pdf

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-1-21 09:26 | 显示全部楼层
wanghan519 发表于 2024-1-21 08:29
根据搜索,需要安装tabula-py而不是tabula,然后from tabula.io import read_pdf

已安装了的
未标题-1.png

TA的精华主题

TA的得分主题

发表于 2024-1-21 09:40 来自手机 | 显示全部楼层
幽谷醉翁 发表于 2024-1-21 09:26
已安装了的

试试tabula.io.read_pdf
不行删除tabula再试试吧

TA的精华主题

TA的得分主题

发表于 2024-1-21 09:52 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-1-21 22:07 | 显示全部楼层
wanghan519 发表于 2024-1-21 09:40
试试tabula.io.read_pdf
不行删除tabula再试试吧

还是不行啊

TA的精华主题

TA的得分主题

发表于 2024-1-22 04:15 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

还是同样的报错吗,我这里安装了就能用

image.png

TA的精华主题

TA的得分主题

发表于 2024-1-23 08:40 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
wanghan519 发表于 2024-1-21 08:29
根据搜索,需要安装tabula-py而不是tabula,然后from tabula.io import read_pdf

请教下,如果文字或表格是图片不是PDF,Python有什么库可以读取出来吗?

TA的精华主题

TA的得分主题

发表于 2024-1-23 09:03 来自手机 | 显示全部楼层
LIUZHU 发表于 2024-1-23 08:40
请教下,如果文字或表格是图片不是PDF,Python有什么库可以读取出来吗?

那就是各种ocr库吧,比如论坛里分享的dddd带带弟弟ocr,就有Python服务版

TA的精华主题

TA的得分主题

发表于 2024-1-23 11:19 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
wanghan519 发表于 2024-1-23 09:03
那就是各种ocr库吧,比如论坛里分享的dddd带带弟弟ocr,就有Python服务版

看来Python操作Excel一般,干点别的还可以
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-21 20:12 , Processed in 0.053058 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表