ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 3265|回复: 10

[分享] 分享一个VB版的XPATH模块

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-10-15 19:52 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 vbexcelhome 于 2019-10-15 21:50 编辑

XPath用来定位元素及其方便,但是VB的htmlfile对象不支持这个语法,所以写了这个模块,可以将定位路径转换成htmlfile元素对象,与大家分享一下。

模块: 模块_VBxpath1.rar (3.84 KB, 下载次数: 122)
使用方法,将模块导入电子表格即可

VBxpath语法:路径用\分开,使用相对路径,不支持绝对路径,例如div[@id='CESHI']\span[@class='copy']

div[@id='CESHI']表示定位id为CESHI的div元素

使用这个模块,必须要先加载网页源码,加载方式有两种:
1、可以使用modVBpath.OpenURL (网址)
2、加载已经获得的网页源码,可以使用modVBpath.LOADouterHTML (网页源码)

获得网页表格内容两种方法(返回表格文本,用TAB分开,可以直接粘贴到电子表格)
1、modVBpath.GetTableText(表格编号)比如网页中有10个表,按编号
2、modVBpath.GetXpathTableText(vbXPATH语法)比如“TABLE[@ID='CESHI']”
。。。。

还有获得元素文本、属性等等
懒得打字了。直接上例子

例1:
获得论坛第一页所有帖子标题(实际上用论坛举这个例子不算好,只能将就一下了)
modVBpath.OpenURL "http://club.excelhome.net/forum-2-1.html"
Set Elements = modVBpath.GetXpathElements("table[@summary='forum_2']")
For Each Element In Elements
        Debug.Print Element.innerText
Next

例2:
论坛有个求助贴,实际就是一个表处理(http://club.excelhome.net/thread-1502971-1-2.html
获得表文本代码如下(这个可以直接写入剪贴板后粘贴):
modVBpath.OpenURL "https://xueqiu.com/S/SH601169"
Debug.Print modVBpath.GetTableText(0)

还可以获得二维表数据,自己再处理,代码:
modVBpath.OpenURL "https://xueqiu.com/S/SH601169"
arr=modVBpath.GetTableArrData(0)

这个arr是个二维数组结构,下标为0.

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2019-10-16 15:00 来自手机 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
不错....。。。。。。。。。

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-11-1 22:13 | 显示全部楼层
模块辅助工具的使用方法
辅助工具.rar (166.76 KB, 下载次数: 68)
说明.png
输入网址后,点击“GO”按钮,即可看到访问的数据,等候数据加载完毕,点击DOM树,可以看到网页元素的详情,元素展示有两种模式,一种是树模式,一种为标签模式,树模式是元素的实际排列方式,默认为此模式,但是大家在实际中基本不会用到,比如你用tags("div")或者是getElementsByTagName("div")获得元素集合,都是标签模式,展示中从1开始编号,实际使用中应该从0开始编号,比如DIV[1],实际是第0个元素。

这里有个好用的功能,就是直接输入你看到的文字,可以自动搜索出包含它的元素,最右边这个就是,懒得打字了,就这么多吧。


TA的精华主题

TA的得分主题

 楼主| 发表于 2019-11-1 22:21 | 显示全部楼层
这个模块其实并不适合一个地址,它适合于通用类型地址。
比如看小说,大致结构都一样,都是有小说名称,章节目录,但是不同的站结构肯定都不一样,这里只需要修改一下语法就可以了,通用性强。
比如A站章节目录为DIV[@class='booklist']\a[@href]
B站的章节目录为DIV[@id='zhangjie']\a[@href],只需要在配置文件中定义好对应语句就可以了。

TA的精华主题

TA的得分主题

发表于 2019-11-5 20:19 | 显示全部楼层
vbexcelhome 发表于 2019-11-1 22:21
这个模块其实并不适合一个地址,它适合于通用类型地址。
比如看小说,大致结构都一样,都是有小说名称,章 ...

Runtime error 600 咋回事

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-11-5 20:34 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-11-5 20:39 | 显示全部楼层
vbexcelhome 发表于 2019-11-5 20:34
贴一下地址,我看看

就是您帖子里的例1和2的地址

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-11-5 20:57 | 显示全部楼层
Yalishanda30 发表于 2019-11-5 20:39
就是您帖子里的例1和2的地址

这个问题主要是VB与电子表格VBA不同,请把有问题的这句改一下:
objHtmlFile.body.outerHTML = outerHTML==》
改为
objHtmlFile.Write outerHTML

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2019-11-5 21:01 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
vbexcelhome 发表于 2019-11-5 20:57
这个问题主要是VB与电子表格VBA不同,请把有问题的这句改一下:
objHtmlFile.body.outerHTML = outerHT ...

可以,非常感谢

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-11-5 21:08 | 显示全部楼层
有些网站打开会有弹窗,碰到这个情况请看看自定义函数
Private Sub ClearScript(outerHTML As String)
看看Mid(outerHTML, FindStart, Length) = Space(Length)是否被注释掉了。如果是请取消注释。

不过这个得看具体情况,有时候可能需要这个弹窗。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-25 19:15 , Processed in 0.042147 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表