ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: liu-aguang

[原创] 网页数据采集---网页文档解析篇(json/html/xml)

  [复制链接]

TA的精华主题

TA的得分主题

发表于 2016-10-18 18:12 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖已被收录到知识树中,索引项:网页交互
liu-aguang 发表于 2016-10-18 17:35
没有发现你说的情况. 该网页请求不需要Cookie也可正确返回json; 你可以用WinHttp.WinHttpRequest.5.1测试 ...

用你43楼中vba代码可以正确返回,成功

我直接用2种浏览器出现问题,也许是我电脑哪里设置原因吧。
2016-10-18_180150.png


TA的精华主题

TA的得分主题

 楼主| 发表于 2016-10-18 21:24 | 显示全部楼层
6. 利用xPath查询XML元素


<1>xPath简介


XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

例:XML文档
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
  <title lang="eng">Harry Potter</title>
  <price>29.99</price>
</book>
<book>
  <title lang="eng">Learning XML</title>
  <price>39.95</price>
</book>
</bookstore>

xPath路径表示式示例:
/bookstore/book/title   book元素的所有title子元素
/bookstore/book[1]/title  第二个book元素的所有title元素
xPath语法极其丰富, 可以灵活自由选择XML元素. 有兴趣的朋友可以参考:http://www.w3school.com.cn/xpath/index.asp

<2>XML DOM中使用xPath示例


XML DOM节点有两个方法可以使用xPath:

A. selectSingleNode() 方法查找和 XPath 查询匹配的一个节点
语法:
nodeObject.selectSingleNode(query)
query XPath 查询串。
返回值
匹配查询的一个单独的 Node。如果没有,则为 null。
说明
这个特定于 IE 的方法计算一个 XPath 表达式,使用这个节点作为 context 节点。它返回找到的第一个匹配节点,如果没有匹配的节点就返回 null。这个 selectSingleNode() 方法只在 XML 文档节点上存在,在 HTML 文档中不存在。

例:测试XML文档如上
Sub xPathXMLb()
    Text = "<?xml version='1.0' encoding='ISO-8859-1'?><bookstore><book>  <title lang='eng'>Harry Potter</title>  <price>29.99</price></book><book>  <title lang='eng'>Learning XML</title>  <price>39.95</price></book></bookstore>"
    Set xmlDoc = CreateObject("Microsoft.XMLDOM")
    xmlDoc.async = "false"
    xmlDoc.loadXML (Text)
    Set x = xmlDoc.SelectSingleNode("/bookstore/book/title")    '第一个book节点的首个title节点
    Set y = xmlDoc.SelectSingleNode("/bookstore/book[1]/title") '第二个Book节点的首个title节点
    MsgBox x.ChildNodes(0).nodevalue    'x.FirstChild.nodevalue
    MsgBox x.attributes(0).nodevalue
    MsgBox y.FirstChild.nodevalue
End Sub


B. selectNodes() 方法用一个 XPath 查询选择节点
语法:
nodeObject.selectNodes(query)
query XPath 查询串。
返回值
包含了匹配查询的节点的一个 NodeList。
说明
这个特定于 IE 的方法计算一个 XPath 表达式,使用该节点作为查询的根节点,并且将结果作为一个 NodeList 返回。这个 selectNodes() 方法只用于 XML 文档节点,不用于 HTML 文档节点。

例:测试XML文档同上
Sub xPathXMLa()
    Text = "<?xml version='1.0' encoding='ISO-8859-1'?><bookstore><book>  <title lang='eng'>Harry Potter</title>  <price>29.99</price></book><book>  <title lang='eng'>Learning XML</title>  <price>39.95</price></book></bookstore>"
    Set xmlDoc = CreateObject("Microsoft.XMLDOM")
    xmlDoc.async = "false"
    xmlDoc.loadXML (Text)
    Set x = xmlDoc.SelectNodes("/bookstore/book/title")
    MsgBox x.Length
    MsgBox x(0).FirstChild.nodevalue
End Sub


TA的精华主题

TA的得分主题

发表于 2016-10-19 16:57 | 显示全部楼层
找遍了工具发现没有收藏帖子的功能,只能做个标记

点评

在一楼帖子的下面,有收藏  发表于 2016-10-19 18:52

TA的精华主题

TA的得分主题

发表于 2016-10-23 17:34 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2016-10-27 14:05 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2016-10-28 10:02 | 显示全部楼层
本帖最后由 wormtwo 于 2016-10-28 10:03 编辑

如何提取这段的属性值呢?
  1. <caseItemLog><WL B="9073185407748296660" I="9073185407748296660" N="14700356538634" P="4053418715206535326" PN="张三" ICD="1470819508317" IUD="1470819508317" AS="0"/><WL B="7981047663275560771" I="7981047663275560771" N="14700356538637" P="5471147329064354838" PN="于李四" ICD="1470819508317" IUD="1474212600407" AS="0,26,5"/></caseItemLog>
复制代码

比如提取B,PN的值?

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-10-28 12:46 | 显示全部楼层
wormtwo 发表于 2016-10-28 10:02
如何提取这段的属性值呢?

比如提取B,PN的值?
  1. Sub test()
  2.     s = "<caseItemLog><WL B='9073185407748296660' I='9073185407748296660' N='14700356538634' P='4053418715206535326' PN='寮犱笁' ICD='1470819508317' IUD='1470819508317' AS='0'/><WL B='7981047663275560771' I='7981047663275560771' N='14700356538637' P='5471147329064354838' PN='浜庢潕鍥' ICD='1470819508317' IUD='1474212600407' AS='0,26,5'/></caseItemLog>"

  3.     Set xmlDoc = CreateObject("Microsoft.XMLDOM")
  4.     xmlDoc.async = "false"
  5.     xmlDoc.LoadXML (s)
  6.     For Each k In xmlDoc.getElementsByTagName("WL")(0).Attributes '第一个WL元素的属性
  7.        MsgBox k.Text
  8.     Next
  9. End Sub
复制代码

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2016-10-29 13:03 | 显示全部楼层
多谢大神们的指点,发帖辛苦了

TA的精华主题

TA的得分主题

发表于 2016-11-7 21:08 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
selectSingleNode和selectNodes不能用于html,那我用xmlhttp加载的http代码有什么办法用xpath啊?试过loadXML直接把ResponseText,发现无法加载,返回false。大神怎么解决?

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-11-8 08:12 | 显示全部楼层
herro_gs 发表于 2016-11-7 21:08
selectSingleNode和selectNodes不能用于html,那我用xmlhttp加载的http代码有什么办法用xpath啊?试过loadX ...

xPath不能用于HTML节点查询.
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-20 18:35 , Processed in 0.048176 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表