ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 16959|回复: 19

[原创] QueryTables的批量抓取办法(两个变量的处理)

[复制链接]

TA的精华主题

TA的得分主题

发表于 2012-7-18 00:34 | 显示全部楼层 |阅读模式
本帖最后由 引子玄 于 2012-7-18 15:36 编辑

问:EXCEL 如何获取网站多页数据?地址 http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book1.htm
==================
答:
先通过QueryTables获取分页URL
得出分页URL为:
http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book1.files/sheet001.htm
http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book2.files/sheet001.htm
http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book3.files/sheet001.htm
http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book4.files/sheet001.htm
http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book5.files/sheet001.htm

再做循环处理:
先QueryTables宏录制代码为:
Sub Macro1()
    With ActiveSheet.QueryTables.Add(Connection:= _
        "URL;http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book1.files/sheet001.htm", _
        Destination:=Range("A1"))
        .Name = "sheet001"
        .FieldNames = True
        .RowNumbers = False
        .FillAdjacentFormulas = False
        .PreserveFormatting = True
        .RefreshOnFileOpen = False
        .BackgroundQuery = True
        .RefreshStyle = xlInsertDeleteCells
        .SavePassword = False
        .SaveData = True
        .AdjustColumnWidth = True
        .RefreshPeriod = 0
        .WebSelectionType = xlAllTables
        .WebFormatting = xlWebFormattingNone
        .WebPreFormattedTextToColumns = True
        .WebConsecutiveDelimitersAsOne = True
        .WebSingleBlockTextImport = False
        .WebDisableDateRecognition = False
        .WebDisableRedirections = False
        .Refresh BackgroundQuery:=False
    End With
End Sub

然后修改:
1、如果按行植入,代码

Sub 翻动网页按行植入()
x = 0
Do
x = x + 1
    With ActiveSheet.QueryTables.Add(Connection:= _
        "URL;http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book" & x & ".files/sheet001.htm", _
        Destination:=Cells(60 * (x - 1) + 1, 1))
        .Name = "sheet001"
        .FieldNames = True
        .RowNumbers = False
        .FillAdjacentFormulas = False
        .PreserveFormatting = True
        .RefreshOnFileOpen = False
        .BackgroundQuery = True
        .RefreshStyle = xlInsertDeleteCells
        .SavePassword = False
        .SaveData = True
        .AdjustColumnWidth = True
        .RefreshPeriod = 0
        .WebSelectionType = xlAllTables
        .WebFormatting = xlWebFormattingNone
        .WebPreFormattedTextToColumns = True
        .WebConsecutiveDelimitersAsOne = True
        .WebSingleBlockTextImport = False
        .WebDisableDateRecognition = False
        .WebDisableRedirections = False
        .Refresh BackgroundQuery:=False
    End With
Loop Until x = 5
End Sub

2、如果按列植入,代码
Sub 翻动网页按列植入()
x = 0
Do
x = x + 1
    With ActiveSheet.QueryTables.Add(Connection:= _
        "URL;http://www.sdzs.gov.cn/score/gaokao/2012/0715/Book" & x & ".files/sheet001.htm", _
        Destination:=Cells(1, 12 * (x - 1) + 1))
        .Name = "sheet001"
        .FieldNames = True
        .RowNumbers = False
        .FillAdjacentFormulas = False
        .PreserveFormatting = True
        .RefreshOnFileOpen = False
        .BackgroundQuery = True
        .RefreshStyle = xlInsertDeleteCells
        .SavePassword = False
        .SaveData = True
        .AdjustColumnWidth = True
        .RefreshPeriod = 0
        .WebSelectionType = xlAllTables
        .WebFormatting = xlWebFormattingNone
        .WebPreFormattedTextToColumns = True
        .WebConsecutiveDelimitersAsOne = True
        .WebSingleBlockTextImport = False
        .WebDisableDateRecognition = False
        .WebDisableRedirections = False
        .Refresh BackgroundQuery:=False
    End With
Loop Until x = 5
End Sub
====================
QueryTables网页抓取的批量处理,最主要的是解决好URL和Range两个基本变量的问题。
学会对这两个变量的处理,那么网页抓取的门槛,难度将随之降低、、、、、、

千万别小瞧QueryTables,帮助寻找URL作用可大呢!
QueryTables结合F12键和IE功能,这样那样的隐藏看不见的URL,统统可以擒入囊中。(没有啥么装这装那工具的繁琐,只要一个IE浏览器就可以),而且对页面看得见的内容,统统都可以实现导入(直接或间接)。
QueryTables真可谓“只要看得见、就能抓得到”,是一款适众、通用、简易的抓取武器。

评分

2

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-18 00:46 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 引子玄 于 2012-7-18 01:12 编辑

面向我等菜鸟分享、交流
(俺没装这样那样的浏览器,也没装这样那样的工具,分析网页靠IE浏览器自带功能的F12)

TA的精华主题

TA的得分主题

发表于 2012-7-18 03:46 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
收藏了,互相交流。。

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-18 08:08 | 显示全部楼层
本帖最后由 引子玄 于 2012-7-18 08:20 编辑
lzqlaj 发表于 2012-7-18 03:46
收藏了,互相交流。。


互相学习帮助,多谢鼓励。

在后面的QueryTables摸索中,俺将尝试QueryTables在一些细节处理上的难点,比如:
URL变量中出现空白页,如何办?
只选择导入部分的规定内容,Range变量如何办?
在QueryTables上尝试更深的挖掘和扩展、、、、、、让QueryTables成为人见人爱的网抓好助手。
让更多的我等菜鸟主流,对网抓不再望而生畏,QueryTabkes正在摸索中、、、、、、






TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-18 08:47 | 显示全部楼层
本帖最后由 引子玄 于 2012-7-18 08:53 编辑

多谢蓝天大师在关键性地方的大力帮忙。
俺学E,在其中的两次关键突破中,都和您的帮助有着重要的关系。
一次是在做全自动软件时,其中的网页采集部分不会做,是您帮写了代码,结果使软件顺利完成;
这次网抓入门突破,也是因为您在相关帖子的提示,才促成了俺第一次做出了真正意义上的网抓代码。
受惠至深,言语难表。多谢您了。

TA的精华主题

TA的得分主题

发表于 2012-7-18 10:19 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2012-7-18 10:33 | 显示全部楼层
本帖最后由 kangatang 于 2012-7-18 10:33 编辑

我思量着对于单独用qureytable 无法完成的提取工作用另一种方式完成
用xmlhttp提取整个页面的源文件,暂存于temp文件夹(为html文件)。再用qureytable提取相应的table.
速度还是可以的。免去了对responsetext(长字符串)复杂的处理(不停地split,或正则提取)。
比较有通用性

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-18 10:43 | 显示全部楼层
kangatang 发表于 2012-7-18 10:33
我思量着对于单独用qureytable 无法完成的提取工作用另一种方式完成
用xmlhttp提取整个页面的源文件,暂存 ...

经验的指路对于摸索者,很重要,多谢.

TA的精华主题

TA的得分主题

发表于 2012-7-18 14:31 | 显示全部楼层
引子玄 发表于 2012-7-18 10:43
经验的指路对于摸索者,很重要,多谢.

xmlhttp+querytable的提取方式见介绍和实例:
http://club.excelhome.net/forum. ... 527&pid=6131196

TA的精华主题

TA的得分主题

发表于 2012-9-5 20:52 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
千万别小瞧QueryTables,帮助寻找URL作用可大呢!
QueryTables结合F12键和IE功能,这样那样的隐藏看不见的URL,统统可以擒入囊中。(没有啥么装这装那工具的繁琐,只要一个IE浏览器就可以),而且对页面看得见的内容,统统都可以实现导入(直接或间接)。
QueryTables真可谓“只要看得见、就能抓得到”,是一款适众、通用、简易的抓取武器。
============================================================================
隐藏看不见的URL怎么获得,能不能讲详细一点?
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-9-8 19:57 , Processed in 0.048091 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表