ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: wcymiss

[原创] 不懂html也来学网抓(xmlhttp/winhttp+fiddler)

    [复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2015-3-9 17:06 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖已被收录到知识树中,索引项:网页交互
本帖最后由 wcymiss 于 2015-3-9 17:18 编辑
liucqa 发表于 2015-3-8 00:10
你这个代码是错的,建议看一下gzip的文件格式定义,然后再自己改一下代码。

不要从百度抄,全是错的。 ...

嗯,确实有错,而且错得离谱,不知道第一个写这段代码是根据什么写的。
错误1:压缩前数据长度获取错误。(应为压缩数据的最后四个字节)
错误2:DestroyDecompression的参数传递方式错误。(应为按值传递)

gzip.dll虽然是微软提供,但我没搜到官方对其内部函数的说明,只能在msdn上找到几个相近的函数声明作为参考。

另外,winrar软件可以解压gzip文件。所以也可以利用winrar解压gzip数据。不过这个会涉及到读写磁盘。

测试代码如下(包括上述两种方法):
Gzip测试.rar (16.87 KB, 下载次数: 306)

gzip.dll请从722楼下载。下载后解压到D盘根目录,然后再运行本楼的测试代码。

以上代码在下述环境运行通过:
1、winXP+office2010
2、64bit win 7+ 32bit office2010

参考:
GZIP文件格式:RFC 1952 GZIP file format specification version 4.3
类似函数声明:Decompress
类似函数声明:Compress Function

评分

2

查看全部评分

TA的精华主题

TA的得分主题

发表于 2015-3-9 22:54 | 显示全部楼层
本帖最后由 liucqa 于 2015-3-10 10:34 编辑
wcymiss 发表于 2015-3-9 17:06
嗯,确实有错,而且错得离谱,不知道第一个写这段代码是根据什么写的。
错误1:压缩前数据长度获取错误。 ...

VOID WINAPI DestroyCompression(   IN PVOID context);     
...指针吧
Pointer to any type.
This type is declared in WinNT.h as follows:
typedef void *PVOID;




********************************************************************


http://gnuwin32.sourceforge.net/packages/gzip.htm
这有个带源代码


********************************************************************易语言的定义

.DLL命令 InitDecompression, 整数型, "gzip.dll", "InitDecompression"
.DLL命令 InitCompression, 整数型, "gzip.dll", "InitCompression"
.DLL命令 CreateDecompression, 整数型, "gzip.dll", "CreateDecompression"
    .参数 context, 整数型, 传址
    .参数 flags, 整数型
.DLL命令 CreateCompression, 整数型, "gzip.dll", "CreateCompression"
    .参数 context, 整数型, 传址
    .参数 flags, 整数型
.DLL命令 ResetDecompression, 整数型, "gzip.dll", "ResetDecompression"
    .参数 context, 整数型
.DLL命令 ResetCompression, 整数型, "gzip.dll", "ResetCompression"
    .参数 ontext, 整数型
.DLL命令 DestroyDecompression, , "gzip.dll", "DestroyDecompression"
    .参数 context, 整数型
.DLL命令 DeInitCompression, 整数型, "gzip.dll", "DeInitCompression"
.DLL命令 DeInitDecompression, 整数型, , "DeInitDecompression"

.DLL命令 DestroyCompression, 整数型, "gzip.dll", "DestroyCompression"
    .参数 context, 整数型
.DLL命令 Compress, 整数型, "gzip.dll", "Compress", , 压缩
    .参数 context, 整数型
    .参数 inBytes, 字节集
    .参数 input_size, 整数型
    .参数 outBytes, 字节集
    .参数 output_size, 整数型
    .参数 input_used, 整数型, 传址
    .参数 output_used, 整数型, 传址
    .参数 compressionLevel, 整数型
.DLL命令 Decompress, 整数型, "gzip.dll", "Decompress", , 解压
    .参数 context, 整数型
    .参数 inBytes, 字节集
    .参数 input_size, 整数型
    .参数 outBytes, 字节集
    .参数 output_size, 整数型
    .参数 input_used, 整数型, 传址
    .参数 output_used, 整数型, 传址



TA的精华主题

TA的得分主题

 楼主| 发表于 2015-3-10 09:37 | 显示全部楼层
liucqa 发表于 2015-3-9 22:54
VOID WINAPI DestroyCompression(   IN PVOID  context);     
...指针吧
Pointer to any type.

虽然那个声明是指针类型(byref),但实测是按值传递的(byval)。所以我之前也只是说“类似的声明”。

用byref的话,在winxp下,Debug.Print 显示一个大于0的数值(某个错误号),在64bitwin7下,系统直接崩溃。
用byval,Debug.Print显示0,表明成功(S_OK)。
另外,微软的api中,销毁句柄类的声明,大多都是byval类型的。

那个源码是gzip官方网站的gzip的内部源码,与微软的gzip.dll没多大关系。(微软的gzip.dll存在于IIS的安装文件里)
gzip官网和zlib官网都有很多dll和exe,vb都可以用它们来压缩和解压gzip数据。

TA的精华主题

TA的得分主题

发表于 2015-3-12 13:46 | 显示全部楼层
那位大神帮我把附件中的 用 spilt函数分解一下,显示在EXCEL文件里面。

OIL.rar

7.31 KB, 下载次数: 2

点评

split是最最基础的文本处理函数了。自己查查帮助写吧。不要做伸手党。  发表于 2015-3-12 14:17
请另发主题帖求助。  发表于 2015-3-12 14:05

TA的精华主题

TA的得分主题

发表于 2015-3-12 18:07 | 显示全部楼层
自从用fidder抓东西后,就开始一直思考一些问题,

为何有那么多的cookies,
抓了一些网页,总觉得根本不用那么多的cookie啊…
一直搞不懂…

还有为什么agent不同的设置就有不同的权限啊…完全不合理…

还有当我用fidder抓到自己的帐号密码时,都觉得很不安全,这些资讯就这样公开的流在网路上,所谓的骇客是不是就是将这些"session"拦截下来啊…

不知道有没有什么好书,或是网站,有更详细的说明关于一些网路的知识…

点评

说的太对了,要不为啥会有https呢,呵呵  发表于 2015-3-14 08:37

TA的精华主题

TA的得分主题

发表于 2015-3-13 11:06 | 显示全部楼层
想问一下,关于CreateOjbect("Htmlfile")这个是不是没办法前期引用啊?
我引用了Microsoft Html Object Library
也知道CreateOjbect("Htmlfile") 是 new HTMLDocument
但是若是用new 的方式,在执行.write 的方法时,就出现错误,如下所示
"编译错误:
函数或介面被标示为restricted,或该函数使用 Visual Basic不支援的 Automation类型"
用Createobject("Htmlfile")的话,就不会出错

另外,QueryTable法 是不是没办法处理"POST" 类型的url啊…





TA的精华主题

TA的得分主题

发表于 2015-3-13 11:35 | 显示全部楼层
lolmuta 发表于 2015-3-13 11:06
想问一下,关于CreateOjbect("Htmlfile")这个是不是没办法前期引用啊?
我引用了Microsoft Html Object Lib ...

前期引用肯定是可以。只是不接受write的方法而已,不过你可以直接赋值嘛。比如html.body.innerhtml=.responsetext
至于cookie,对于你的操作并不是每个都有用的。然后再session会话层,有些会记录你每一个操作都做了些什么,如果缺某一步的话就无法继续下一步操作。。

TA的精华主题

TA的得分主题

发表于 2015-3-13 16:08 | 显示全部楼层
本帖最后由 lolmuta 于 2015-3-13 16:15 编辑

还有一些奇怪的问题,
因为我们公司是网页式的资料库,目前我能够用模拟request提交各种参数,然后输出结果,但是有时候还是想要到网页上去看一下资料,
简单的说,利用xmlhttp 或是WinHttpRequest 已经作了一连串的reguest & Send(有数个"POST"),我突然想要开启IE 去看一下目前的状态,有可能作的到吗?


还有一个问题,因为有的时候资料会查很久,有没有让request能多工处理?
像如果我开启好几个IE去查询,就有多工的效果。
但是若是用模拟Request的方式,有办法也能多工吗?

TA的精华主题

TA的得分主题

发表于 2015-3-15 13:37 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
lolmuta 发表于 2015-3-13 16:08
还有一些奇怪的问题,
因为我们公司是网页式的资料库,目前我能够用模拟request提交各种参数,然后输出结果 ...

VBA里自然不是那么容易实现,如换成C#之前的,直接开一个线程就完事了。

TA的精华主题

TA的得分主题

发表于 2015-3-15 19:19 | 显示全部楼层
wcymiss 发表于 2014-10-21 14:00
获取数据-直接获取-GET

再复制一次主体代码: xmlhttp/winhttp对象的Open方法的第一参数主要有两个值:G ...

吴姐,post后得到数据如下
Content-Length: 156493
该如何处理,才能获取动态参数。(不另存文本,在读取)
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-12-25 14:50 , Processed in 0.047442 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表