使用Power Query网抓新冠肺炎数据实例操作

luzwales · 发表于 2020-11-23 18:14

前端时间学python,使用爬虫爬取腾讯新闻新冠疫情数据
现在发现Power query也可以直接爬取，获取的json文件可以在Power query中层层获取所需要的数据。
但腾讯的json文件中，国外数据只有一个总数据是每天更新的，除美国之外的daily数据只更新到3-4月份。
1. 打开tencent xw网页到新冠肺炎页面。https://news.qq.com/zt2020/page/feiyan.htm
2. 右键->Inspect(Ctrl+Shift+I)->网络-> Ctrl+R查看数据包->JS会出现下面画面->逐一点击会看到有大的文件，下面连续两个文件1个是中国的，一个事国外的

查源

3. 选择这个JS文件，然后右键->Copy-> Copy link address.
4. 打开Excel, Data-> From Other Source->From Web, 将所复制的地址粘贴，但是要删除地址中Jquery后面的一段，“jQuery3510941964199952747_1606125555402&_=1606125555403”，否则会识别不了，具体原因不知道(下载下来后，里面多了2个“”，删除后可以用json正常导入，python里可以复制整段，然后点击确定。
5. 打开后就是Record, 我们需要data里面的数据得到json文件，然后用Json.Document读取此文件。

Json读取

6. 这样就完整读取了整个数据。要想具体读取，就使用PQ里面的函数得到你想要的数据就可以。

cai747657902 · 发表于 2020-11-25 14:31

看了一眼楼主的办法，感觉有点麻烦，很多时候这类有规律变化的网址都是采用别的办法去抓取的
当然网站抓取其实各有千秋，主要的还是那种方法舒服用那种

15221387005 · 发表于 2020-11-27 11:06

cai747657902 发表于 2020-11-25 14:31
看了一眼楼主的办法，感觉有点麻烦，很多时候这类有规律变化的网址都是采用别的办法去抓取的
当然网站抓取 ...

请教类似的案例，我想拿到当前页面下有多少条记录（导出清单），怎么操作呢？useragent 怎么找到的呢？

15221387005 · 发表于 2020-11-27 11:35

15221387005 发表于 2020-11-27 11:06
请教类似的案例，我想拿到当前页面下有多少条记录（导出清单），怎么操作呢？useragent 怎么找到的呢？

excel 中power query 链接倒是数据源时，和你的截图不同？

cai747657902 · 发表于 2020-11-27 16:32

15221387005 发表于 2020-11-27 11:35
excel 中power query 链接倒是数据源时，和你的截图不同？

https://pqfans.com/207.html
去看一下，不同的类型有不同的抓取方法

		自动登录	找回密码
密码			免费注册

使用Power Query网抓新冠肺炎数据实例操作

评分