求助用VBA提取网页数据

mfz1975 · 发表于 2019-1-19 21:54

求助用VBA提取网站的公示的所在乡(镇)，所在村组，购机者姓名，机具品目，生产厂家，产品名称，购买机型，购买数量(台)，经销商，单台销售价格(元)，单台补贴额(元)，总补贴额(元)，状态等信息

duquancai · 发表于 2019-1-19 22:11

四千六百多页！！！采用异步吧！！！

abc123281 · 发表于 2019-1-19 22:54

楼上大神应该是个网抓高手期待大神的答案借此机会也学习一下网抓

changhong8 · 发表于 2019-1-19 22:57

这网站响应太慢了，三四秒才加载出来

719404338 · 发表于 2019-1-19 23:38

太慢了，20页，要几分钟。

duquancai · 发表于 2019-1-20 01:34

abc123281 发表于 2019-1-19 22:54
楼上大神应该是个网抓高手期待大神的答案借此机会也学习一下网抓

# -*- coding: utf-8 -*-
# version: Python 3.7.0
import requests, re
from lxml import etree
session = requests.Session()
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}
def get_html(url, post_data):
with session.post(url=url, data=post_data, headers=headers) as res:
parse_html(res.text)
def parse_html(text):
#这里解析数据！！！
tree = etree.HTML(text)
trs = tree.xpath('//tbody[@id="list-pub"]/tr')
for tr in trs:
tdlist = [x.xpath('./text()')[0].strip() for x in tr.xpath('./td')]
print(tdlist)
def main():
htm_str = session.get('http://218.12.43.28:2018/pub/gongshi', headers=headers).text
token = re.search(r'(?s)<input name="__RequestVerificationToken".*?value="([^"]+)"', htm_str)
pages = re.search(r"<a href='/pub/gongshi\?pageIndex=(\d+)'>>>", htm_str)
if pages and token:
#动态获取总页数：共计4686页,print(pages.group(1))
base_url = 'http://218.12.43.28:2018/pub/GongShiSearch'
for p in range(1, int(pages.group(1)) + 1):
url = '{}?pageIndex={}'.format(base_url, str(p))
post_data = {'__RequestVerificationToken': token.group(1)}
get_html(url, post_data)
break
if __name__ == '__main__':
main()