|
前端时间学python,使用爬虫爬取腾讯新闻新冠疫情数据
现在发现Power query也可以直接爬取,获取的json文件可以在Power query中层层获取所需要的数据。
但腾讯的json文件中,国外数据只有一个总数据是每天更新的,除美国之外的daily数据只更新到3-4月份。
1. 打开tencent xw网页到新冠肺炎页面。https://news.qq.com/zt2020/page/feiyan.htm
2. 右键->Inspect(Ctrl+Shift+I)->网络-> Ctrl+R查看数据包->JS会出现下面画面->逐一点击会看到有大的文件,下面连续两个文件1个是中国的,一个事国外的
查源
3. 选择这个JS文件,然后右键->Copy-> Copy link address.
4. 打开Excel, Data-> From Other Source->From Web, 将所复制的地址粘贴,但是要删除地址中Jquery后面的一段,“jQuery3510941964199952747_1606125555402&_=1606125555403”, 否则会识别不了,具体原因不知道(下载下来后,里面多了2个“”,删除后可以用json正常导入,python里可以复制整段,然后点击确定。
5. 打开后就是Record, 我们需要data里面的数据得到json文件,然后用Json.Document读取此文件。
Json读取
6. 这样就完整读取了整个数据。要想具体读取,就使用PQ里面的函数得到你想要的数据就可以。
|
评分
-
2
查看全部评分
-
|