ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

EH搜索     
EH云课堂-专业的职场技能充电站 Excel转在线管理系统,怎么做看这里 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
Excel不给力? 何不试试FoxTable! Excel 2016函数公式学习大典 高效办公必会的Office实战技巧 免费下载Excel行业应用视频
300集Office 2010微视频教程 Tableau-数据可视化工具 精品推荐-800套精选PPT模板,点击获取 ExcelHome出品 - VBA代码宝免费下载
你的Excel 2010实战技巧学习锦囊 欲罢不能, 过目难忘的 Office 新界面 Excel VBA经典代码实践指南
查看: 316|回复: 5

XPath2Doc, XPath2Doc,一个半自动采集网页生成Word Docx文件的工具,带企查查

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-6-22 14:48 | 显示全部楼层 |阅读模式
本帖最后由 liucq 于 2019-6-22 14:41 编辑


很多人需要从网站采集一些数据填写Word模板,手工操作费时费力还容易出错,所以我给朋友写了这个工具。本程序只支持Docx格式的模板文件。
本程序不是爬虫,不是自动采集工具,不能自动登录网站。需要自己在WebBrowser窗口里面手工登录,并找到需要的数据页面,然后点击程序按钮进行采集,所以是个半自动的网页数据填充Docx工具。

工作原理:
网页的每个元素,都可以表示成为XPath语句,所以我们可以读取浏览器打开的网站页面源代码,通过XPath语句得到网页元素中的文本。
教程:http://www.w3school.com.cn/xpath/index.asp

XPath语句的获取办法:
    通常我们可以使用谷歌的Chrome浏览器打开网站页面,按F12调出开发者工具界面,在ELements选项卡下,随着鼠标的移动可以看到网页内容被阴影覆盖,点开三角符号,可以更进一步定位准确的位置,直到找到最终需要的数据位置。在找到的文本上点鼠标右键,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到记事本即可得到需要的XPath语句。
这里需要说明一点:如果拷贝出来的XPath语句中有/tbody会影响采集,程序内部对此问题进行了处理,但可能会在某些特殊情况下还是会影响数据采集,可以手工去掉。

软件运行环境:
Windows7 Sp1操作系统请安装下面的组件(重要:VC库如果不安装,本程序无法启动):
1、.Net Framework 4.5.2。https://www.microsoft.com/en-us/download/details.aspx?id=42642
2、32位 VC2017(或更高版本)运行库https://support.microsoft.com/zh-cn/help/2977003/the-latest-supported-visual-c-downloads
     下载vc_redist.x86.exe
在Windows10系统下上述组件一般自带,不需要单独安装。Windows10 1903运行通过。
不支持Windows XP操作系统。

软件操作说明:
1、本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名自己定义。
    General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。
    自定义.ini、自定义模板.docx是软件使用者自己创建的网页采集XPath语句及最后生成文件所用的Docx模板,具体设置方法请看ini文件中的说明。注意,Docx模板文件中的“@<#0001#>@”之类的字符是在INI文件中定义的用于替换网页采集内容的标记字符串。ini文件中定义了替换关键字的前后缀和模板文件名。

2、使用本程序前,请先建立好你自己的INI配置文件和Docx模板文件。(具体可以参见附带的企查查、天眼查两个配置文件和起诉书模板)
需要说明的是,模板文件支持对文档的不同部分使用不同的网址进行采集,注意Url的设置。

3、使用方法:
    启动程序--选择模板--点击采集数据按钮旁边的黑色三角符号,点开下拉菜单,点击需要采集的部分。等候浏览器加载网页完毕,手工输入需要查询的内容,点击查询,找到数据的具体页面,然后点击采集数据按钮,观察右侧的列表中是不是已经得到需要的数据。继续点开下拉菜单,选择下一个需要采集的部分,如果网址发生了变化要等候浏览器加载完毕,找到需要的数据页面。点击采集数据按钮观察右侧列表中是不是得到了第二部分的数据。如此反复,直到数据全部采集完毕。
    如果前后两部分的网址相同,在点击下一部分的下拉菜单之前,要先在浏览器中重新查询新的数据,等新数据页面出来之后在点击下拉菜单选择下一部分进行采集。(网址相同的情况下,点击下一部分会直接从网页取数据,如果浏览器没有换页面,数据就错了。)如果某个部分需要重新采集,请先点击下拉菜单中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意改变浏览器的数据页面,得到的就是不同公司数据)。
    列表中采集得到的数据结果如果有偏差,可以单击自行修改。XPath语句如果有什么错误,也可以自己修改看测试结果(XPath语句在修改后会立即重新抓取浏览器的数据,所以浏览器最好是有效数据页面),在程序中修改的XPath语句,不会保存到INI文件中,请自行手工保存。
    如果列表中数据无误,预览窗口中的Docx模板内容也正确,则可以点击创建文档按钮,填写要生成的文件名,本软件会使用抓取到的网页数据替换模板中的索引字符串,自动生成Docx文档。
    需要说明的是,右下角的Docx预览窗口不能完整的支持Word文档,对不标准的文档可能会出现文本缺失或者错位现象。遇到这种情况,可以忽略,或者将模板文件改成规范的文本格式(单倍行距)。

本程序是Free版,可长期免费使用。

评分

参与人数 1鲜花 +2 收起 理由
zpy2 + 2 优秀作品

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-6-22 14:49 | 显示全部楼层
本帖最后由 liucqa 于 2019-6-25 00:11 编辑

压缩包中自带了企查查、天眼查配置文件和起诉书的简单模板,供使用者参考。

本程序使用有一个门槛:通过手工操作Chrome得到网页数据的XPath语句。
建议电脑小白找个略懂鼠标操作的人帮助获取和填写INI配置文件


也可以在本贴留言,或百度联系作者以获取对程序的使用帮助。


下载链接:链接:https://pan.baidu.com/s/13hegfjZr1T9XVJqQKudPuQ           提取码:2t3m

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-6-22 21:18 | 显示全部楼层
本帖最后由 liucqa 于 2019-6-22 21:19 编辑

1.png

操作演示可以看压缩包中的 Demo.gif 动画文件

***************

TA的精华主题

TA的得分主题

发表于 2019-6-24 09:40 | 显示全部楼层
请补链接,谢谢!!   



                                            莫愁前路无知己,天下谁人不识君!只道是:海内存知己,天涯若比邻!  

    TA的精华主题

    TA的得分主题

     楼主| 发表于 2019-6-24 14:01 | 显示全部楼层
    本帖最后由 liucqa 于 2019-6-25 00:12 编辑
    wdpfox 发表于 2019-6-24 09:40
    请补链接,谢谢!!   

    网盘老审核,看上面楼层的链接吧

    TA的精华主题

    TA的得分主题

    发表于 2019-6-30 20:21 | 显示全部楼层
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    关注官方微信,高效办公专列,每天发车

    手机版|关于我们|联系我们|ExcelHome

    GMT+8, 2019-8-18 10:38 , Processed in 0.094533 second(s), 18 queries , Gzip On, MemCache On.

    Powered by Discuz! X3.4

    © 1999-2020 Wooffice Inc.

       

    沪公网安备 31011702000001号 沪ICP备11019229号

    本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:徐怀玉律师 李志群律师

    快速回复 返回顶部 返回列表