ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 19024|回复: 24

[原创] 网抓技巧-剪贴板快速复制网页表格,适用于保留整表及保留网页表格原格式

  [复制链接]

TA的精华主题

TA的得分主题

发表于 2015-3-17 14:50 | 显示全部楼层 |阅读模式
本帖已被收录到知识树中,索引项:网页交互
本帖最后由 百度不到去谷歌 于 2015-3-17 14:52 编辑

在网抓的时候 大部分情况都是抓取表格数据到页面 如果表格规整 循环遍历页代码还好写如果遇到有合并单元格 或者需要保留表格原格式 写代码就显得很麻烦
有一次正好是客户要求保留原格式 我开始也是遍历读取
写到一半突然想起来我们平时不是经常从网页复制粘贴表格到excle么
于是我就尝试代码复制htmldocument对象的表格到excel里粘贴 没想到还真可以
进而再一步实验 只要获取了源码 复制源码中table标签内的字表格字符串
那么粘贴后即可完整保持原来表格格式个样式
测试表及代码如下
测试网页http://www.taifex.com.tw/chinese/3/7_8.asp
需要获得表格截图如下
QQ截图20150317131257.jpg
可以看到这个表格有很多合并单元格排版 还有颜色
采用剪贴板复制法  我们可以很方便的将整表放入
导出结果如下如 格式完美复制 不用遍历 操作简单方便
QQ截图20150317145051.jpg
代码如下 网页表格快速导出.rar (63.19 KB, 下载次数: 512)
  1. Option Explicit
  2. Public Sub tableTest()
  3.     Dim txt, web
  4.     Set web = CreateObject("MSXML2.XMLHTTP")
  5.     web.Open "Get", "http://www.taifex.com.tw/chinese/3/7_8.asp", False
  6.     web.send
  7.     txt = web.responsetext
  8.     txt = "<table>" & HtmlFilter(txt, "table_f"">", "</table>")
  9.     PutClipboard txt
  10.     Cells.Clear
  11.     [A1].Select
  12.     ActiveSheet.Paste
  13. End Sub
  14. Public Function HtmlFilter(ByVal htmlText$, Label1$, label2$)
  15. '返回html字符串lable1和最近的lable2标签中的数据
  16.     Dim pStart As Long, pStop As Long
  17.     '开始位置,结束位置
  18.     pStart = InStr(htmlText, Label1) + Len(Label1)
  19.     '找到标签信息的起始位置
  20.     If pStart <> 0 Then
  21.         pStop = InStr(pStart, htmlText, label2)
  22.         HtmlFilter = Mid(htmlText, pStart, pStop - pStart)
  23.     End If
  24. End Function
  25. Public Sub PutClipboard(ByVal tt$) 'tt放入剪贴板
  26.     With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")       '调试用,数据放入剪贴板
  27.         .SetText tt
  28.         .PutInClipboard
  29.     End With
  30. End Sub
复制代码





该贴已经同步到 百度不到去谷歌的微博

TA的精华主题

TA的得分主题

发表于 2015-3-17 14:59 | 显示全部楼层
学习,收藏。

TA的精华主题

TA的得分主题

发表于 2015-3-18 14:20 | 显示全部楼层
如需转码怎么办?
如附件:
NBA赛事直播.zip (835.74 KB, 下载次数: 40)

点评

正常转码 然后得到就是正确编码的html 后续不就一样了  发表于 2015-3-18 15:26

TA的精华主题

TA的得分主题

发表于 2015-3-19 17:22 | 显示全部楼层
本帖最后由 VBA万岁 于 2015-3-20 10:11 编辑

应用(一)复制文本、格式及链接:
  1. Option Explicit
  2. Public Sub tableTest()
  3.     Dim txt, web
  4.     Set web = CreateObject("MSXML2.XMLHTTP")
  5.     web.Open "Get", "http://nba.sports.sina.com.cn/match_result.php?dpc=1", False
  6.     web.send
  7.     txt = StrConv(web.responseBody, vbUnicode, &H804)
  8.     txt = "<table>" & HtmlFilter(txt, "table980middle"">", "table980bottom")
  9.     PutClipboard txt
  10.     Cells.Clear
  11.     [A1].Select
  12.     ActiveSheet.Paste
  13.    
  14.     txt = StrConv(web.responseBody, vbUnicode, &H804)
  15.     txt = HtmlFilter(txt, "<strong>", "</div>")
  16.     PutClipboard txt
  17.     Range("A" & ActiveSheet.UsedRange.Rows.Count + 2).Select
  18.     ActiveSheet.Paste
  19. End Sub

  20. Public Sub tableTest2()
  21.     Dim txt, web
  22.     Set web = CreateObject("MSXML2.XMLHTTP")
  23.     web.Open "Get", "http://nba.sports.sina.com.cn/league_order1.php?dpc=1", False
  24.     web.send
  25.     txt = StrConv(web.responseBody, vbUnicode, &H804)
  26.     txt = "<table>" & HtmlFilter(txt, "table980middle"">", "</table>")
  27.     PutClipboard txt
  28.     Cells.Clear
  29.     [A1].Select
  30.     ActiveSheet.Paste
  31.    
  32.     txt = StrConv(web.responseBody, vbUnicode, &H804)
  33.     txt = HtmlFilter(txt, "<strong>", "</div>")
  34.     PutClipboard txt
  35.     [A39].Select
  36.     ActiveSheet.Paste
  37. End Sub

  38. Public Function HtmlFilter(ByVal htmlText$, Label1$, label2$)
  39. '返回html字符串lable1和最近的lable2标签中的数据
  40.     Dim pStart As Long, pStop As Long
  41.     '开始位置,结束位置
  42.     pStart = InStr(htmlText, Label1) + Len(Label1)
  43.     '找到标签信息的起始位置
  44.     If pStart <> 0 Then
  45.         pStop = InStr(pStart, htmlText, label2)
  46.         HtmlFilter = Mid(htmlText, pStart, pStop - pStart)
  47.     End If
  48. End Function

  49. Public Sub PutClipboard(ByVal tt$) 'tt放入剪贴板
  50.     With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")       '调试用,数据放入剪贴板
  51.         .SetText tt
  52.         .PutInClipboard
  53.     End With
  54. End Sub
复制代码

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2015-3-19 17:34 | 显示全部楼层
本帖最后由 VBA万岁 于 2015-3-20 10:17 编辑
VBA万岁 发表于 2015-3-18 14:20
如需转码怎么办?
如附件:


多谢!按指点已解决!
应用(一)复制文本、格式与链接:
NBA赛事直播.zip (845.62 KB, 下载次数: 163)

TA的精华主题

TA的得分主题

发表于 2015-3-19 20:24 | 显示全部楼层
最后这个函数好熟悉,呵呵

点评

貌似是你的网抓教程里复制的 一直就用这个了  发表于 2015-3-19 20:34

TA的精华主题

TA的得分主题

发表于 2015-3-19 22:26 | 显示全部楼层
支持一下,现在肯钻研的人不多了            







TA的精华主题

TA的得分主题

发表于 2015-3-19 22:38 | 显示全部楼层
还用什么HtmlFilter,直接取table,然后使用innerhtml属性就好了,几乎就和QT配型了。

点评

装进htmldoc再读费时间 虽然实际使用我也是用htmldoc操作的 为了示例没用代码 更直观一点  发表于 2015-3-19 22:48

TA的精华主题

TA的得分主题

发表于 2015-3-19 23:14 | 显示全部楼层
很好,有参考价值,支持。

TA的精华主题

TA的得分主题

发表于 2015-3-20 10:21 | 显示全部楼层
VBA万岁 发表于 2015-3-19 17:34
多谢!按指点已解决!
应用(一)复制文本、格式与链接:

应用(二)复制文本与图片(附件虽老旧了点,但还是能体现剪贴板的强大功能):
伦敦奥运会奖牌榜_2012.zip (822.01 KB, 下载次数: 141)
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-12-4 01:14 , Processed in 0.037762 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表