ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: Kaohsing

[讨论] 解析网页源码,获得所需数据。

  [复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-2 15:25 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
kings12333 发表于 2017-11-2 15:05
发最后这个方法的源码,照抄都取不到数据。。
  1. Sub kaohsing()
  2.     Set HTML = CreateObject("HTMLFile")
  3.     URL = "http://www.yuncaijing.com/markethot/discovery.html?keyword=%E9%9B%84%E5%AE%89"
  4.     Set win = CreateObject("WinHttp.WinHttpRequest.5.1")
  5.     With win
  6.         .Open "GET", URL, False
  7.         .send
  8.         HTML.body.innerHTML = .responseText
  9.     End With
  10.     Set td = HTML.getElementsByTagName("td")
  11.     '---------------------数据一锅端
  12.     ' For i = 0 To td.Length - 1
  13.     ' tt = tt & "  |" & vbTab & i & " ....." & td(i).innertext
  14.     'If i Mod 5 = 0 Then Debug.Print tt: tt = ""
  15.     ' Next
  16.     '<A href="about:/quote/sh603903.html" target=_blank data-showchart-code="603903">中持股份</A>
  17.    
  18.     For j = 0 To td.Length - 1
  19.         If InStr(td(j).innerHTML, "<A href=") = 1 Then Exit For
  20.     Next
  21.     For i = j To td.Length - 1
  22.         tt = tt & "  |" & vbTab & i & " ....." & td(i).innertext
  23.         If i Mod 5 = 0 Then Debug.Print tt: tt = ""
  24.     Next
  25.    
  26.     Stop
  27. End Sub
复制代码


TA的精华主题

TA的得分主题

发表于 2017-11-2 18:33 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-2 18:54 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2017-11-2 18:57 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-2 19:06 | 显示全部楼层
ykytom 发表于 2017-11-2 12:48
不用工具能直接分析出动态URL吗,

你自己试试

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-2 19:43 | 显示全部楼层
kings12333 发表于 2017-11-2 18:57
不明白为什么要除以5?

      
      tt = tt & "  |" & vbTab & i & " ....." & td(i).innertext      ’ 以制表符分割返回的数据,
     If i Mod 5 = 0 Then Debug.Print tt: tt = ""     ‘ 当i=5,10,15...也就是5的倍数,就行后面的语句“ 打印“,清空变量。
至于为什这样。就是为了数据对比用,尽可能在截图时多接一些。

TA的精华主题

TA的得分主题

发表于 2017-11-3 00:27 | 显示全部楼层
Kaohsing 发表于 2017-11-2 19:43
tt = tt & "  |" & vbTab & i & " ....." & td(i).innertext      ’ 以制表符分割返回的 ...

虽然还不是很懂,也得说声谢谢!

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-3 11:13 | 显示全部楼层
续说CreateObject("htmlfile")解析数据  
  
  反复查看源码,tdtr都在table标签中。

QQ截图20171103104604.png s2.png

多方面证明数据还是在第二个表中,但是在代码中索引都是从0 开始的,第二个表的索引为1,(如果不明白,那就看看引用的字典吧)下面有代码证明一下。
s3.png s4.png

下面来点理论,引用w3schoole的
s6.png

  下面来几张图,说明tablede的属性:(浓缩了主要的属性,图片胜过千言万语)
s7.png s8.png

虽然返回了数据,数据又是挨在一块的,不理想。那就展开个item看看有什么属性。
s9.png

发现有个cellscells是单元格的集合,(与Excel差不多吗),继续点
s10.png
最后结果:
QQ截图20171103111147.png

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-3 14:25 | 显示全部楼层

以下是28楼的代码,存为本地的html文件。
遍历.zip (48.62 KB, 下载次数: 86) html.rar (9.57 KB, 下载次数: 61)


一点说明,可能是网页登录的比较频繁,人家服务器不给数据了,只好解析本地文件,道理是一样的,
  Set win = CreateObject("microsoft.xmlhttp")  
With win
        .Open "GET", "C:\Users\Administrator\Desktop\abc.html", False
        .send
        HTML.body.innerHTML = .responseText
   End With

以前楼层的代码就不发了。只需调整一下红字部分即可。

TA的精华主题

TA的得分主题

 楼主| 发表于 2017-11-3 16:17 | 显示全部楼层
最后说说CreateObject("htmlfile")解析数据  
引用w3school的语录:
HTML DOM 定义了多种查找元素的方法,除了 getElementById() 之外,还有 getElementsByName() 和 getElementsByTagName()。不过,如果您需要查找文档中的一个特定的元素,最有效的方法是 getElementById()。在操作文档的一个特定的元素时,最好给该元素一个 id 属性,为它指定一个(在文档中)唯一的名称,然后就可以用该 ID 查找想要的元素。
从上不难发现getElementById(),用来查找唯一一个特定的,那getElementsByName() 和 getElementsByTagName()言外之意是集合啦.
28楼以证明(Set td =HTML.getElementsByTagName("table")(1).Rows)getElementsByTagName()了。例子真难找。就找了个天气预报的例子。
j1.png

分析源码,得知数据的位置如下:
j2.png s3.png


最终代码运行情况如下:

s5.png
贴上代码:
Sub kaohisng_getElementById()  
    With CreateObject("MSXML2.XMLHTTP")
        .Open "GET", "C:\Users\Administrator\Desktop\peking.html", False
        .send
         strText = .responseText
      End With
     Set htm = CreateObject("htmlfile")
      htm.body.innerHTML = strText
     Debug.Print htm.getElementById("hidden_title").Value
     Debug.Print htm.getElementById("fc_3h_internal_update_time").Value & "更新"
End Sub


到此CreateObject("htmlfile")解析数据结束
peking.rar (18.97 KB, 下载次数: 47)

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-5-10 00:16 , Processed in 0.041683 second(s), 6 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表