ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 1191|回复: 5

[求助] 【已更新】关于受保护的JavaScript数据的抓取

[复制链接]

TA的精华主题

TA的得分主题

发表于 2018-2-22 19:55 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 独自去摇滚 于 2018-2-24 17:47 编辑

更新内容请看下面黑体字的部分。

我是一个刚刚学习VBA两个月左右的萌新,然而最近遇到一个难题,让我不知道怎么解决。我在网上包括论坛里搜索了很久可是也没有能够解决这个问题,所以发个帖子咨询一下。

任务的目标是从网页上提取表格类型的数据。这些数据都是不同ETF的股票构成表。但是其中一部分是以文本形式呈现在网页上的,一部分是以.xls文件形式挂在网页上可供下载的,还有一部分是以邮件形式发送给ETF持有者的。
然后这个任务有三个不同层次的目标:
1. 最好的效果是不管是文件还是网页上的文字,对不同的网站都可以用同一个函数Get_PCF(link As String)或者Get_PCF(symbol As String, link As String)来抓取到;
2. 退一步的要求是对于同一种数据(比如都是网页上的数据或者都是.xls文件的数据),不同的网页可以用同一个函数抓取到;
3. 最基本的要求是对于给定的网页,可以抓取到。

我之前用Add Queries方法能达到无论是网站上的数据还是.xls文件,都能通过一个函数搞定。但是通过邮件的我实在是没有办法搞定了。而且前两天我遇到一个网站(链接见下),没有办法通过Add Queries方法得到数据。

http://www.sse.com.cn/disclosure/fund/etflist/detail.shtml?type=1&etfClass=1
这个是我刚刚提到的,无法用Add Queries方法抓取数据的网站,华夏基金的SSE50 ETF。打开之后数据是在”成分股信息内容“下面的50支股票的数据。

我这两天看了一下liucqa大神的网页抓取课程,学习了很多,开始尝试使用XMLHTTP方法抓取这个数据。然后我发现下面的问题:1. 首先我尝试用XMLHTTP方法得到网页的源代码,复制粘贴到记事本后发现并没有相关数据的表格,而是显示<script type="text/javascript">。之所以我确定是这样是因为我inspect了这个网页,然后是可以在源代码里看到表格的数据的。但是粘贴到记事本里面的源代码定位下来就只有这个了;
2. 然后我又学习了liucqa大神的使用vba解析json格式网页的教程,用httpfox分析了网页,发现表格对应的链接如下
http://query.sse.com.cn/infodisplay/queryConstituentStockInfo.do?jsonCallBack=jsonpCallback90277&isPagination=false&type=1&market=&etfClass=1&_=1519465239769
然后在content里能看到存储的内容。但是当我尝试把这个链接粘贴到浏览器地址栏然后回车之后,并没有加载出数据,而是显示“Error 403: SRVE0190E: 找不到文件:/error/error_cn.jsp
3. 目前对于使用vba解析json格式的网页我也是一知半解,所以不是很清楚目前的方向是不是正确的,也不知道下一步应该怎么做。希望有大神可以帮我解决一下这个问题。

希望有大神可以帮小弟解决这个问题!万分感谢!

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-2-23 00:16 | 显示全部楼层
自己顶一下,希望有大神能帮我一下。

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-2-23 20:32 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
有大神能帮我答疑解惑吗,万分感谢!

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-2-24 18:00 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
尴尬忘记加黑了,更新就是我这两天学习XMLHTTP并尝试解决这个问题的部分

TA的精华主题

TA的得分主题

发表于 2018-2-24 18:05 | 显示全部楼层
本帖最后由 看见星光 于 2018-2-24 18:09 编辑

有耗爬虫的时间,不如学下python。事实上,VBA并不善于爬虫。好比用函数解一个问题,累的半死,VBA轻而易举解决了;同样的道理,VBA折腾个半死的网页解析等,python则简单的多。
另外关于vba和js再推荐两个帖子给你:
http://club.excelhome.net/thread-1303169-1-1.html
http://club.excelhome.net/thread-1228149-1-1.html

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-2-24 18:14 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
看见星光 发表于 2018-2-24 18:05
有耗爬虫的时间,不如学下python。事实上,VBA并不善于爬虫。好比用函数解一个问题,累的半死,VBA轻而易举 ...

先谢谢大神!我也知道这个道理,奈何这个任务要求就是要用vba来写,所以我也没有什么办法啊。。。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-16 11:39 , Processed in 0.038452 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表