http://www.sina.com.cn 2005年01月04日 09:11 天极网
文/戴洪玲
Office 2003中的虚拟打印机
Office 2003自带了一个虚拟打印机,如果没有安装,请运行Office 2003的安装程序,利用其“添加或删除功能”中的“高级自定义”将组件Microsoft Office Document Imaging Writer安装到系统中即可。利用Office 2003的这一虚拟打印机,任何加密的文档都可以把其中的文字提取到Word文档中,只要其提供了打印功能,甚至包括tif图像中的文字;实现文字到图像的转换。
下面利用这一方法来提取加密pdf文档中的文字:
运行Acrobat Reader,打开要提取文字的pdf文档,单击菜单“文件→打印”,在出现的“打印”窗口中,打印机名称一定要选择“Microsoft Office Document Imaging Writer”,单击后面的“属性”按钮,可以设置页面大小、输出文件格式(包括mdi和tiff两种格式,默认为msi)及默认保存位置。设置好“打印”窗口中的其他相关参数后,单击“确定”按钮,出现“另存为”窗口,在此即可把页面“打印”成一个mdi文件,同时系统会自动启动“Microsoft Office Document Imaging”并显示出刚刚保存的mdi文件。
在Microsoft Office Document Imaging的窗口中,单击菜单“工具→将文本发送到Word”,在弹出的窗口中单击“确定”,系统会自动对整个页面进行OCR识别,识别完毕之后,会自动启动Word,并把识别出来的文字显示在Word文档中,识别效果非常不错。如果只需要页面中的部分文字,可单击标准工具栏中的“使用OCR识别文本”,先进行文字识别,然后用鼠标框选出需要的部分,再执行“将文本发送到Word”,选中“当前选中范围”即可。(图6)
图6
在Word中适当对文字及格式进行修改,即可将其保存成doc文档。到此pdf文档中的文字已经提取到了Word中了。
提示:如果上面“打印”成的格式是tif,则需要手动从“开始”菜单“Microsoft Office 工具”中启动Microsoft Office Document Imaging,然后再“打开”tif文件,同样可以把文字识别到Word中。 |