ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: wcymiss

[原创] 不懂html也来学网抓(xmlhttp/winhttp+fiddler)

    [复制链接]

TA的精华主题

TA的得分主题

发表于 2014-10-24 08:40 | 显示全部楼层
本帖已被收录到知识树中,索引项:网页交互
謝謝解答.這帖真好

TA的精华主题

TA的得分主题

发表于 2014-10-24 09:50 | 显示全部楼层
对好多有采集需求的人来说,看看教程,获取数据并不难。难的是不知道如何处理采集到的数据,并生成自己需要的格式,这肯定不是看看教程就能学会的。

你可以多做一些处理采集到的数据的案例,结合数组、字典、字符串处理、正则等几个方面给出例子

谢谢!

点评

字符串处理在下篇“提取数据”会讲。  发表于 2014-10-24 10:05

TA的精华主题

TA的得分主题

发表于 2014-10-24 09:55 | 显示全部楼层
wcymiss 发表于 2014-10-23 16:12
缓存的困扰
用xmlhttp对象GET数据时,会优先从缓存中调取。

wcymiss大师,能不能帮忙举个含有需要登录用户名和密码的网站抓取的例子,让我们这些菜鸟观摩学习下....本帖中没找到这个例子...无从下手,有个例子可以从代码中获得感悟,有助于我们这些菜鸟理解.....

点评

后面会讲。  发表于 2014-10-24 10:13

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-24 10:03 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 wcymiss 于 2014-10-24 10:05 编辑
liucqa 发表于 2014-10-24 09:50
对好多有采集需求的人来说,看看教程,获取数据并不难。难的是不知道如何处理采集到的数据,并生成自己需要 ...


大哥,您老怎么老是看帖看一半啊。。。。

46楼就是模拟cookie欺骗服务器的例子。。。

还有70楼也是。

关于Cookie,我也是尽可能把我所知道的都写出来了。

TA的精华主题

TA的得分主题

发表于 2014-10-24 10:07 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
wcymiss 发表于 2014-10-24 10:03
大哥,您老怎么老是看帖看一半啊。。。。

46楼就是模拟cookie欺骗服务器的例子。。。

哦,帖子太长,没时间一一细看。

你可以重点写后期的数据处理,这个才是大部分人不得不花钱找人写代码的根本原因

点评

本人认为,因为不同的行业,管理要求不同,导致获取网页数据的难易程度也不同,应该重点讲,至于后期数据处理,相对要简单的多,至于liucqa 老师,你是高高手了,最好能多做一些补充,谢谢  发表于 2014-11-7 19:51
慢慢来啊。。数据总要先获取才好分析嘛。  发表于 2014-10-24 10:08

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-24 10:57 | 显示全部楼层
代理
如果服务器对同一IP有访问次数的限制,我们就要使用代理服务器了。

winhttp对象有SetProxy方法可以设置代理服务器,具体语句是:

SetProxy 2,"xxx.xxx.xxx.xxx:xxxx"

测试代码(代理服务器地址可能已失效):
  1. Sub Main()
  2.     Dim strText As String
  3.     With CreateObject("WinHttp.WinHttpRequest.5.1")
  4.         .SetProxy 2, "218.75.100.114:8080"
  5.         .Open "GET", "http://20140507.ip138.com/ic.asp", False
  6.         .send
  7.         strText = ByteToStr(.Responsebody, "GB2312")'请自行拷贝之前的常用函数
  8.         Debug.Print strText
  9.     End With
  10. End Sub
复制代码
---------------------------------------------------------------
小贴士:
不知大家在测试中发现没,fiddler可以抓到vba中xmlhttp发送请求,但无法抓到winhttp的发送请求。

有时我们调试时,会需要比较代码的发送请求与我们实际操作的发送请求是否一致,但fiddler无法抓到winhttp,怎么办呢?

你当然可以用其他抓包软件抓包。

但更快捷的做法就是,在winhttp中设置代理为"127.0.0.1:8888"。
  1. .SetProxy 2,"127.0.0.1:8888"
复制代码
因为fiddler监视的8888端口,我们设定winhttp的数据由8888进出,fiddler就能抓到包了。

点评

“非常代理”软件能自动设置代理,但它却不提供显示端口、用它提示的加“1080”端口是不正确的  发表于 2014-10-24 16:23
http://20140507.ip138.com/ic.asp有时是不能用的。  发表于 2014-10-24 16:21
提供一个可以用的代理服务器地址:.SetProxy 2, "14.18.16.67:80"  发表于 2014-10-24 13:18

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-24 10:59 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
留空。

TA的精华主题

TA的得分主题

发表于 2014-10-24 11:06 | 显示全部楼层
老师在吗  能否帮忙看下  如果数据能在网页看到但是源码里看不到该怎么抓,谢谢了http://club.excelhome.net/thread-1160614-1-1.html

TA的精华主题

TA的得分主题

发表于 2014-10-24 11:18 | 显示全部楼层
onlycxb 发表于 2014-10-23 16:44
新手作业

onlycxb大侠,想请教你一个问题:
我想提取如下数据:
想抓取的数据.jpg

我这里用Fiddler2抓到的数据,如下:
Fiddler2抓到的数据.jpg

我想用如下代码提取开奖数据到Excel表,却被提示“无法显示页面,因为发生内部服务器错误。”,不知抓取数据的代码应该怎样编写(或修改)?
Sub 按钮1_单击()
    Dim Url, html
    Url = "http://www.pinble.com/Lottery/Template/WebService1.asmx/PresentList"
    Set html = CreateObject("htmlfile")
    With CreateObject("msxml2.xmlhttp")
        .Open "POST", Url, False
        .setRequestHeader "Content-Type", "application/json"
        .setRequestHeader "Referer", "/Template/WebService1.asmx/PresentList"
        .send
        html.body.innerhtml = .responseText
        Cells(1, 1) = .responseText
        Set tb = html.all.tags("table")(4).Rows
        For i = 0 To tb.Length - 1
            For j = 1 To tb(i).Cells.Length - 1
                Cells(i + 1, j) = tb(i).Cells(j).innertext
            Next
        Next
    End With
End Sub


点评

你url补上了host(http://www。pinble.com),referer也要补全这部分呀。  发表于 2014-10-24 11:58
fiddler版本太老了,host都省略了。新版fiddler会把host都写全。升级fiddler吧。  发表于 2014-10-24 11:56

TA的精华主题

TA的得分主题

 楼主| 发表于 2014-10-24 12:07 | 显示全部楼层
本帖最后由 wcymiss 于 2014-10-24 13:15 编辑

提取数据-下载文件
知道下载文件的真实地址,就能很方便的用xmlhttp或winhttp下载文件。

下载文件同样可以通过fiddler抓包。

打开fiddler,点击下载链接,出现文件下载窗口时点击“取消”即可。

在fiddler里查看抓到的Session前面的图标,文档的下载地址前面的图标一般是 图标-文本.png
音乐、图片也都有明确的图标,一看便知。

得到下载地址后,用xmlhttp/winhttp获取文件流(二进制数据),然后把文件流转成文件。

示例代码如下:(注意此时用的是Responsebody而不是Responsetext
  1. Sub Main()
  2.     Const strFileName As String = "C:\测试EH下载文件.rar"
  3.     With CreateObject("MSXML2.XMLHTTP") 'CreateObject("WinHttp.WinHttpRequest.5.1")
  4.         .Open "GET", "http://club.excelhome.net/forum.php?mod=attachment&aid=MTA2MjQ1MHw0MDQxMTAzOHwxNDE0MTIxNTg0fDIxODkxN3w4MDk5MjQ%3D", False
  5.         .Send
  6.         ByteToFile .responsebody, strFileName
  7.     End With
  8. End Sub
复制代码
小贴士:
1、登录才能下载的文件,真实地址是在登录后服务器临时生成的一个地址。地址得到后,是否登录就无关紧要了。
2、最好事先知道要下载的文件的类型。否则,如果地址中能看出文件类型最好,不然你就只能根据文件结构去判断文件类型了。这个很麻烦。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-19 19:40 , Processed in 0.046991 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表