ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 4084|回复: 32

[求助] 求助用VBA提取网页数据

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-1-19 21:54 | 显示全部楼层 |阅读模式
求助用VBA提取网站的公示的所在乡(镇),所在村组,购机者姓名,机具品目,生产厂家,产品名称,购买机型,购买数量(台),经销商,单台销售价格(元),单台补贴额(元),总补贴额(元),状态等信息

网页信息提取.rar

118.88 KB, 下载次数: 17

TA的精华主题

TA的得分主题

发表于 2019-1-19 22:11 | 显示全部楼层
四千六百多页 !!!采用异步吧!!!

TA的精华主题

TA的得分主题

发表于 2019-1-19 22:54 | 显示全部楼层
楼上大神应该是个网抓高手   期待大神的答案   借此机会也学习一下网抓

TA的精华主题

TA的得分主题

发表于 2019-1-19 22:57 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
这网站响应太慢了,三四秒才加载出来

TA的精华主题

TA的得分主题

发表于 2019-1-19 23:38 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-1-20 01:34 | 显示全部楼层
abc123281 发表于 2019-1-19 22:54
楼上大神应该是个网抓高手   期待大神的答案   借此机会也学习一下网抓
  1. # -*- coding: utf-8 -*-
  2. # version: Python 3.7.0
  3. import requests, re
  4. from lxml import etree

  5. session = requests.Session()
  6. headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"}

  7. def get_html(url, post_data):
  8.         with session.post(url=url, data=post_data, headers=headers) as res:
  9.             parse_html(res.text)

  10. def parse_html(text):
  11.     #这里解析数据!!!
  12.     tree = etree.HTML(text)
  13.     trs = tree.xpath('//tbody[@id="list-pub"]/tr')
  14.     for tr in trs:
  15.         tdlist = [x.xpath('./text()')[0].strip() for x in tr.xpath('./td')]
  16.         print(tdlist)

  17. def main():
  18.     htm_str = session.get('http://218.12.43.28:2018/pub/gongshi', headers=headers).text
  19.     token = re.search(r'(?s)<input name="__RequestVerificationToken".*?value="([^"]+)"', htm_str)
  20.     pages = re.search(r"<a href='/pub/gongshi\?pageIndex=(\d+)'>>>", htm_str)
  21.     if pages and token:
  22.         #动态获取总页数:共计4686页,print(pages.group(1))
  23.         base_url = 'http://218.12.43.28:2018/pub/GongShiSearch'
  24.         for p in range(1, int(pages.group(1)) + 1):
  25.             url = '{}?pageIndex={}'.format(base_url, str(p))
  26.             post_data = {'__RequestVerificationToken': token.group(1)}
  27.             get_html(url, post_data)
  28.             break

  29. if __name__ == '__main__':
  30.     main()
复制代码

QQ截图20190120013159.png

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2019-1-20 01:48 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-1-20 02:02 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
20页,用时66秒。
无标题7.jpg

TA的精华主题

TA的得分主题

发表于 2019-1-20 02:07 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
试了几次,20页大概65-70秒,3-4秒一页。

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-1-20 09:44 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助

感谢大神的帮助
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-20 09:19 , Processed in 0.048757 second(s), 13 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表