ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: wolfccb

[原创] VBA网页爬虫和多线程指南

  [复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-2-23 08:51 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
liucqa 发表于 2018-2-23 01:12
我测试过,使用winhttp一次发送800个异步链接请求是可以的,如果你只能发20个,速度上不去,应该是其它原因 ...

谢谢,我发的多些也可以,但不能用winhttp,因为登录时涉及到MD5之类的加密以及跨站验证,需要用webbrowser空间来帮xmlhttp获取登录信息,winhttp获取不到。我的速度上不去是由于网站后天数据的响应比较慢,并发请求多了也没用,别的网站可能会好很多。

以上。
路过的老狼

TA的精华主题

TA的得分主题

发表于 2018-2-23 12:38 | 显示全部楼层
技术部分看不懂,ccb里也没有atm、窗口……倒是一堆有见地的思想……牛人啊

TA的精华主题

TA的得分主题

发表于 2018-2-24 14:30 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 liucqa 于 2018-2-24 14:36 编辑
wolfccb 发表于 2018-2-23 08:51
谢谢,我发的多些也可以,但不能用winhttp,因为登录时涉及到MD5之类的加密以及跨站验证,需要用webbrows ...

你说这些应该vba是可以通过调用js或者htmlfile来实现的,不需要webbrowser

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-2-24 17:31 | 显示全部楼层
liucqa 发表于 2018-2-24 14:30
你说这些应该vba是可以通过调用js或者htmlfile来实现的,不需要webbrowser

太麻烦了,还不如webbrowser直接模拟一个click。我爬的网站还有跨站登录验证,没找到好办法。

以上。
打哈欠的老狼

TA的精华主题

TA的得分主题

发表于 2018-10-22 13:26 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
大神,没有留个附件,让我们后来者,研究研究哈~~
求大神,贴图上的源码,能共享吗

TA的精华主题

TA的得分主题

发表于 2019-3-15 07:28 来自手机 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-3-31 09:37 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-4-1 09:08 | 显示全部楼层
本帖最后由 浮华、缠绕指尖 于 2019-4-1 09:32 编辑

粗略看了文章,好多的似乎、看似,不知道楼主是谦虚还是根本没实测过就妄下结论
无知者不言,言之勿误导人,楼主看起来应该没抓取过多少网站
说多线程,如果离开了VBA范畴,无论vbscript还是ActiveX EXE,还有再使用的vba的必要吗?为什么不用脚本或者是其他语言来实现整个爬虫呢?excel顶多承载一个存储的作用再说异步,其实和多线程并没有多少联系,不知道你在说异步的时候为什么会扯上多线程,如果你觉得异步会影响速度或者效率,同一个网址你可以再用你所谓的多线程对比一下结果再来说速度和效率。如果取决于网站的速度,那不管你用什么办法都是不可能解决的,这样就不用再怪罪于异步了
再说登录,如果遇到问题都不用去解决,还学习做什么?用Webbrowser来登录倒不是什么问题,但如果我有几百个帐号,也要手动来实现共享cookie吗?拜托,我程序本身就是用来解决批量问题,而不是单个问题。当然了,还有Click这样的模拟点击,说实话,我也不会这个,意思是我就不用去再学学这个本身的用法了?好了,模拟点击也实现了,共享cookie也实现了,那现在我需要多帐号并发登录实现抓取呢?

TA的精华主题

TA的得分主题

发表于 2019-4-17 00:12 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-6-3 11:33 | 显示全部楼层
本帖最后由 wolfccb 于 2019-6-3 11:40 编辑
浮华、缠绕指尖 发表于 2019-4-1 09:08
粗略看了文章,好多的似乎、看似,不知道楼主是谦虚还是根本没实测过就妄下结论
无知者不言,言之勿误导人 ...

这位是以偏概全、断章取义的典范。我提供的是一些方法和思路,如果你觉得对你没有价值,你不用就是了,自有觉得它有价值的人来用。现在Python爬虫确实流行,甚至还有很多现成的爬虫工具连编程都不需要,按你的逻辑,excel网抓的帖子就都别写了呗?

我从没说过异步和多线程是一回事或者有什么联系,我提供的也是一些思路。在一些情景下,异步还真就有提高速度的作用,我也从没说过什么情景都取决于网站的速度。

登录的问题,我也是提供了一种方便的方法,如果你觉得这个方法不适用于你的需求,你别用就是了。对于不熟悉cookie的人,或者网站登录有本地js、登录后还要跳转等等情况,直接用webbrowser来click一下,省了多少心?

我的文章压根没提到多账号登录,你在2019年提出的问题,指望我在2018年预测未来给你提前解决?不好意思,我不欠你的。

以上。
不客气的老狼
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-25 01:52 , Processed in 0.031889 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表