ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 2994|回复: 9

[求助] [已完美解决]]提取所有网页数据,共64页

[复制链接]

TA的精华主题

TA的得分主题

发表于 2015-10-3 19:33 | 显示全部楼层 |阅读模式
本帖最后由 LMY123 于 2015-10-4 08:30 编辑

提取所有页的数据.rar (11.96 KB, 下载次数: 118)
网页一共64页
分别是
https://gaokao.chsi.com.cn/zzbm/ ... 733931&lx=1&start=0
https://gaokao.chsi.com.cn/zzbm/ ... 33931&lx=1&start=30
---------------------------------------------
https://gaokao.chsi.com.cn/zzbm/ ... 931&lx=1&start=1890
网页最后那个数字的步长值是30

TA的精华主题

TA的得分主题

 楼主| 发表于 2015-10-3 20:00 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
'能否把我把下面几句代码改变为循环呢?谢谢
Sub 提取网页第1页()
  With CreateObject("InternetExplorer.Application")
      .Visible = True
      .Navigate "https://gaokao.chsi.com.cn/zzbm/mdgs/detail.action?oid=476733931&lx=1&start=0"
        Do Until .ReadyState = 4
            DoEvents
        Loop
       Set r = .Document.All.tags("td")
       For I = 0 To r.Length - 1
       Cells(I + 1, 1) = r(I).innerText
       Next I
   End With
End Sub

Sub 提取网页第2页()
  With CreateObject("InternetExplorer.Application")
      .Visible = True
      .Navigate "https://gaokao.chsi.com.cn/zzbm/mdgs/detail.action?oid=476733931&lx=1&start=30"
        Do Until .ReadyState = 4
            DoEvents
        Loop
       Set r = .Document.All.tags("td")
       For I = 0 To r.Length - 1
       Cells(I + 1, 2) = r(I).innerText
       Next I
   End With
End Sub
'--------------------------





Sub 提取网页第64页()
  With CreateObject("InternetExplorer.Application")
      .Visible = True
      .Navigate "https://gaokao.chsi.com.cn/zzbm/mdgs/detail.action?oid=476733931&lx=1&start=1890"
        Do Until .ReadyState = 4
            DoEvents
        Loop
       Set r = .Document.All.tags("td")
       For I = 0 To r.Length - 1
       Cells(I + 1, 64) = r(I).innerText
       Next I
   End With
End Sub

TA的精华主题

TA的得分主题

发表于 2015-10-3 22:58 | 显示全部楼层
楼主在我这代码测试没有用,可能是浏览器不行吧,,如果楼主要循环,试下这个代码
  1. Sub 提取网页第1页()
  2.     For y = 0 To 1890 Step 30
  3.         With CreateObject("InternetExplorer.Application")
  4.             .Visible = True
  5.             .Navigate "https://gaokao.chsi.com.cn/zzbm/mdgs/detail.action?oid=476733931&lx=1&start=" & y
  6.             Do Until .ReadyState = 4
  7.                 DoEvents
  8.             Loop
  9.             Set r = .Document.All.tags("td")
  10.             x = 1 + x
  11.             For I = 0 To r.Length - 1
  12.                 Cells(I + 1, x) = r(I).innerText
  13.             Next I
  14.         End With
  15.     Next
  16. End Sub
复制代码

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2015-10-4 00:13 | 显示全部楼层
本帖最后由 孤独骑士 于 2015-10-4 00:22 编辑
  1. Sub 提取报名表()
  2.     On Error Resume Next
  3.     Application.ScreenUpdating = False
  4.     Dim arr(), x%
  5.     Range("a1").Resize(1, 4) = Split("姓名,性别,就读学校,报名所在地", ",")
  6.     For x = 0 To 63
  7.         s = getXmlHttpText("https://gaokao.chsi.com.cn/zzbm/mdgs/detail.action?oid=476733931&lx=1&start=" & application.min(x*30,1890))
  8.         s = regReplace(s, "\s+", "")
  9.         Set m = regMatch(s, "</tr><tr><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td>")
  10.         ReDim arr(1 To m.Count, 1 To 4)
  11.         For i = 1 To UBound(arr)
  12.             For j = 1 To UBound(arr, 2)
  13.                 arr(i, j) = m(i - 1).submatches(j - 1)
  14.             Next
  15.         Next
  16.         Range("a" & x * 30 + 2).Resize(UBound(arr), 4) = arr
  17.         Erase arr
  18.     Next x
  19.     Application.ScreenUpdating = True
  20. End Sub
  21. Function getXmlHttpText(url)
  22.     Dim strText    ' As String
  23.     With CreateObject("MSXML2.XMLHTTP")    'CreateObject("WinHttp.WinHttpRequest.5.1")
  24.         .Open "GET", url, False
  25.         .Send
  26.         getXmlHttpText = .responsetext
  27.     End With
  28. End Function
  29. Function regReplace(s, pstrt, rstr)
  30.     Dim regex As Object
  31.     Dim temp, n
  32.     n = Len(s)
  33.     Set regex = CreateObject("VBScript.RegExp")
  34.     With regex
  35.         .Global = True
  36.         .Pattern = pstrt
  37.         temp = .Replace(s, rstr)
  38.     End With
  39.     regReplace = temp
  40.     Set regex = Nothing
  41. End Function
  42. Function regMatch(s, pString)
  43.     Dim regex As Object
  44.     Dim temp, n
  45.     Set regex = CreateObject("VBScript.RegExp")
  46.     With regex
  47.         .Global = True
  48.         .IgnoreCase = True
  49.         .Pattern = pString
  50.         Set matchs = .Execute(s)    '返回一个集合
  51.     End With
  52.     Set regex = Nothing
  53.     Set regMatch = matchs
  54.     Set matchs = Nothing
  55. End Function
复制代码


一共1920条记录,全取出来了。不过要花点时间运行

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2015-10-4 08:33 | 显示全部楼层
孤独骑士 发表于 2015-10-4 00:13
一共1920条记录,全取出来了。不过要花点时间运行

非常感谢大师的热情帮助,问题已顺利解决

TA的精华主题

TA的得分主题

发表于 2015-10-4 15:14 | 显示全部楼层
这个网站以后能用上                                     。

TA的精华主题

TA的得分主题

发表于 2015-10-5 11:57 | 显示全部楼层
https://gaokao.chsi.com.cn/zzbm/ ... mp;lx=1&start=0
这个网站可能是最简单的数据网页了。唯一变化的参数就是start=( 页码-1)*30

阳光高考这个网站信息可能更多的学生和家长观注。

TA的精华主题

TA的得分主题

 楼主| 发表于 2015-11-13 08:37 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
onlycxb 发表于 2015-10-5 11:57
https://gaokao.chsi.com.cn/zzbm/mdgs/detail.action?oid=476733931&lx=1&start=0
这个网站可能是最简单 ...

谢谢老师关注,能帮我看看这个问题吗?
http://club.excelhome.net/thread-1241066-1-1.html

TA的精华主题

TA的得分主题

发表于 2015-11-13 11:38 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2018-8-23 15:04 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
学习一下,占个位
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-12 16:12 , Processed in 0.025706 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表