ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: onlycxb

[分享] 网页抓取分享

  [复制链接]

TA的精华主题

TA的得分主题

发表于 2014-10-16 16:07 | 显示全部楼层
本帖最后由 VBA万岁 于 2014-10-16 16:11 编辑
onlycxb 发表于 2014-10-15 23:12
复楼上,我是通过计算记录总数/每页20条记录得到总记录(代码中已经标注)。 网页数据地址为http://jiaoy ...


第28、40~42行的引号内的数据是怎么来的?onlycxb大侠有抓包方面的介绍比较详尽的学习帖推荐吗?

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-16 16:21 | 显示全部楼层
VBA万岁 发表于 2014-10-16 16:07
第28、40~42行的引号内的数据是怎么来的?onlycxb大侠有抓包方面的介绍比较详尽的学习帖推荐吗?

利用fiddler,主要是通过页网刷新、跳转,并在这过程中观察主要能数变化和关联,查找包含输出数据的方式进行查找。只要勤加练习,即可找到。

TA的精华主题

TA的得分主题

发表于 2014-10-16 17:05 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
onlycxb 发表于 2014-10-16 16:21
利用fiddler,主要是通过页网刷新、跳转,并在这过程中观察主要能数变化和关联,查找包含输出数据的方式进 ...

多谢指点——下载安装Fiddler2学习看看。

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-19 22:38 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
分享7:
问题来源 http://club.excelhome.net/forum. ... &extra=page%3D1
特点:网页防盗,数据读取有权限
  1. Sub t()
  2.     Dim objWinHttp, Url$, Str$, m%, n%, i%, j%
  3.     Dim arr
  4.     Url = "http://www.gzgczj.com:8080/costRegulatory/project.do"
  5.     Set objWinHttp = CreateObject("WinHttp.WinHttpRequest.5.1")
  6.     With objWinHttp
  7.         '第一次post
  8.         .Open "POST", Url, False
  9.         .setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
  10.         .setRequestHeader "Cookie", "JSESSIONID=2DC7701F8631495E370469482999EFE6"
  11.         .setRequestHeader "Referer", "http://www.gzgczj.com:8080/costRegulatory/user.do?method=changeIndex&fareaId=1"
  12.         .send "method=showProjectList&frecordProstatus=1010&isVisitor=1&fprojAreaId=-1&fprojName=&page.pageNO=1"
  13.         m = Split(Split(.responseText, "共")(1), "页")(0)     '得到总页数
  14.         '以取2页为例
  15.         For i = 1 To 2                                      'm
  16.             .Open "POST", Url, False
  17.             .setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
  18.             .setRequestHeader "Cookie", "JSESSIONID=2DC7701F8631495E370469482999EFE6"
  19.             .setRequestHeader "Referer", "http://www.gzgczj.com:8080/costRegulatory/user.do?method=changeIndex&fareaId=1"
  20.             .send "method=showProjectList&frecordProstatus=1010&isVisitor=1&fprojAreaId=-1&fprojName=&page.pageNO=" & i
  21.             Str = VBA.Replace(.responseText, vbCrLf, "")
  22.             arr = Split(Str, "<TD class=""c_td"" width=""65%"">")
  23.             Cells.ClearComments                             '清除工作表内原数据
  24.             For j = 1 To UBound(arr)
  25.                 n = n + 1
  26.                 Cells(n, 1) = n
  27.                 Cells(n, 2) = Split(arr(j), "</TD>")(0)     '工程名称
  28.                 '其他数据省略
  29.             Next j
  30.         Next
  31.     End With
  32. End Sub
复制代码

TA的精华主题

TA的得分主题

发表于 2014-10-19 22:56 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
肥冬瓜,不错呢。好熟悉的代码。。好熟悉的风格。。加油。

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-20 06:14 | 显示全部楼层
浮华、缠绕指尖 发表于 2014-10-19 22:56
肥冬瓜,不错呢。好熟悉的代码。。好熟悉的风格。。加油。

Super,只点到为止。能够得到数据即可。

TA的精华主题

TA的得分主题

发表于 2014-10-20 07:23 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
每次回帖、谢谢!辛苦了。

TA的精华主题

TA的得分主题

发表于 2014-10-20 12:44 | 显示全部楼层
onlycxb 发表于 2014-10-15 23:12
复楼上,我是通过计算记录总数/每页20条记录得到总记录(代码中已经标注)。 网页数据地址为http://jiaoy ...

尝试用另外一种方法提取,代码如下:
Sub 新浪模拟交易2()
On Error Resume Next

Dim xml As New MSXML2.XMLHTTP, Js
Dim Url$, st$, n%, i%, r%, j%, Total%, m%, k%
Dim Sid As String
   
ActiveSheet.UsedRange.Offset(1, 0).Clear
For p = 1 To 2
    Url = "http://jiaoyi.sina.com.cn/api/jsonp.php/Johansen=johansen062308384298872741413371443299/Ranking_Service.getRate?cid=10000&num=20&start=" & (p - 1) * 20 & "&orderby=profit_ratio&ordertype=desc&qjson="
    With xml
        .Open "GET", Url, False
        .send
        st = .responseText
    End With
   
    For i = 1 To 20
        Cells((p - 1) * 20 + i + 1, 1) = Split(Split(st, "rank_day:")(i), ",mark:")(0)
        Cells((p - 1) * 20 + i + 1, 2) = Split(Split(st, "name:")(i), ",rank_day")(0): Cells((p - 1) * 20 + i + 1, 2) = Mid((p - 1) * 20 + Cells(i + 1, 2), 2, Len(Cells((p - 1) * 20 + i + 1, 2)) - 2)
        Cells((p - 1) * 20 + i + 1, 3) = Split(Split(st, "profit_ratio:")(i), ",profit_ratio_day")(0): Cells((p - 1) * 20 + i + 1, 3) = Mid(Cells((p - 1) * 20 + i + 1, 3), 2, Len(Cells((p - 1) * 20 + i + 1, 3)) - 2)
        Cells((p - 1) * 20 + i + 1, 4) = Split(Split(st, "profit_ratio_day:")(i), ",profit_ratio_week")(0): Cells((p - 1) * 20 + i + 1, 4) = Mid(Cells((p - 1) * 20 + i + 1, 4), 2, Len(Cells((p - 1) * 20 + i + 1, 4)) - 2)
        Cells((p - 1) * 20 + i + 1, 5) = Split(Split(st, "profit_ratio_week:")(i), ",success_ratio")(0): Cells((p - 1) * 20 + i + 1, 5) = Mid(Cells((p - 1) * 20 + i + 1, 5), 2, Len(Cells((p - 1) * 20 + i + 1, 5)) - 2)
        Cells((p - 1) * 20 + i + 1, 6) = Split(Split(st, "success_ratio:")(i), ",retrace_rate")(0): Cells((p - 1) * 20 + i + 1, 6) = Mid(Cells((p - 1) * 20 + i + 1, 6), 2, Len(Cells((p - 1) * 20 + i + 1, 6)) - 2)
        Cells((p - 1) * 20 + i + 1, 7) = Split(Split(st, "retrace_rate:")(i), ",frequency")(0): Cells((p - 1) * 20 + i + 1, 7) = Mid(Cells((p - 1) * 20 + i + 1, 7), 2, Len(Cells((p - 1) * 20 + i + 1, 7)) - 2)
        Cells((p - 1) * 20 + i + 1, 8) = Split(Split(st, "frequency:")(i), ",holdstock:[")(0): Cells((p - 1) * 20 + i + 1, 8) = Mid(Cells((p - 1) * 20 + i + 1, 8), 2, Len(Cells((p - 1) * 20 + i + 1, 8)) - 2)
        Cells((p - 1) * 20 + i + 1, 9) = Split(Split(st, "holdstock:[")(i), ",")(0): Cells((p - 1) * 20 + i + 1, 9) = Mid(Cells((p - 1) * 20 + i + 1, 9), 2, Len(Cells((p - 1) * 20 + i + 1, 9)) - 2)
        Cells((p - 1) * 20 + i + 1, 10) = Split(Split(st, "profit_count:")(i), ",loss_count")(0): Cells((p - 1) * 20 + i + 1, 10) = Mid(Cells((p - 1) * 20 + i + 1, 10), 2, Len(Cells((p - 1) * 20 + i + 1, 10)) - 2)
    Next i
Next p
End Sub

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-20 12:48 | 显示全部楼层
VBA万岁 发表于 2014-10-20 12:44
尝试用另外一种方法提取,代码如下:
Sub 新浪模拟交易2()
On Error Resume Next

总页码我怎么没看到?

TA的精华主题

TA的得分主题

发表于 2014-10-20 12:49 | 显示全部楼层
VBA万岁 发表于 2014-10-20 12:44
尝试用另外一种方法提取,代码如下:
Sub 新浪模拟交易2()
On Error Resume Next

附件如下:
新浪模拟交易排行榜.zip (22.58 KB, 下载次数: 38)
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-12 05:58 , Processed in 0.024807 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表