ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 3454|回复: 6

[分享] 分享三種網抓資料的方法

[复制链接]

TA的精华主题

TA的得分主题

发表于 2020-2-20 11:15 | 显示全部楼层 |阅读模式
本帖已被收录到知识树中,索引项:网页交互
我嘗試用三種方式下載台灣八大公股行庫買超前30名的股票資料,分別用DOM標籤、XPath以及正則擷取節點資料,分享給大家。只是,用正則的方式,礙於初學正則,雖然能成功將資料寫入工作表,但總感覺不是很有效率。請有更好想法的朋友提供意見,謝謝。附件裡面的兩個檔案分別為整個網頁的原始檔(All.txt)以及經過處理的部份原始檔(Part.txt)。


Sub DownloadBroker8_RegExp()
    Dim myStr As String
    Dim mh, k
    Dim Arr()
    Dim i As Integer
    Dim j As Integer
    With CreateObject("WinHttp.WinHttpRequest.5.1")
        .Open "GET", "https://histock.tw/stock/broker8.aspx?d=2020-01-30", False
        .setrequestheader "Referer", "https://histock.tw/stock/broker8.aspx"
        .send
        myStr = .responseText
    End With
    myStr = Split("<ul class=""stock-list"">" & Split(myStr, "<ul class=""stock-list"">")(1), "</span></li></ul>")(0) & "</span></li></ul>"
    myStr = Replace(myStr, "&nbsp;", "")
    With CreateObject("vbscript.regexp")
        .Pattern = "(?=<span class=""w70"">|<span class=""w100 name"">)(.+?)</span>"
        .Global = True
        Set mh = .Execute(myStr)
    End With
    ReDim Arr(1 To 10, 1 To mh.Count / 10)
    i = 1
    For Each k In mh
        If i Mod 10 = 1 Then
            j = j + 1
            i = 1
        End If
        Arr(i, j) = Replace(Replace(Replace(k, "<span class=""w70"">", ""), "<span class=""w100 name"">", ""), "</span>", "")
        i = i + 1
    Next
    With ActiveSheet
        .Cells.Clear
        .Range("A1").Resize(1, 10) = Array("股票", "合庫", "土銀", "台銀", "台企銀", "彰銀", "第一金", "兆豐銀", "華南永昌", "合計(萬)")
        .Range("A2").Resize(mh.Count / 10, 10) = Application.Transpose(Arr)
    End With
End Sub

Sub DownloadBroker8_XPath()
    Dim myStr As String
    Dim i As Integer
    Dim j As Integer
    Dim Arr()
    Dim Nodes
    Dim Node
    With CreateObject("WinHttp.WinHttpRequest.5.1")
        .Open "GET", "https://histock.tw/stock/broker8.aspx?d=2020-01-30", False
        .setrequestheader "Referer", "https://histock.tw/stock/broker8.aspx"
        .send
        myStr = .responseText
    End With
    myStr = Split("<ul class=""stock-list"">" & Split(myStr, "<ul class=""stock-list"">")(1), "</span></li></ul>")(0) & "</span></li></ul>"
    myStr = Replace(myStr, "&nbsp;", "")
    myStr = Replace(myStr, "S&P", "SP")
    myStr = "<?xml version=""1.0"" encoding=""big5""?>" & vbCrLf & myStr
    With CreateObject("MSXML2.DOMDocument.6.0")
        .LoadXML myStr
        Set Nodes = .SelectNodes("//span[contains(@class,""w100 name"") or contains(@class,""w70"")]")
    End With
    ReDim Arr(1 To 10, 1 To Nodes.Length / 10)
    i = 1
    For Each Node In Nodes
        If i Mod 10 = 1 Then
            j = j + 1
            i = 1
        End If
        Arr(i, j) = Node.Text
        i = i + 1
    Next Node
    With ActiveSheet
        .Cells.Clear
        .Range("A1").Resize(1, 10) = Array("股票", "合庫", "土銀", "台銀", "台企銀", "彰銀", "第一金", "兆豐銀", "華南永昌", "合計(萬)")
        .Range("A2").Resize(Nodes.Length / 10, 10) = Application.Transpose(Arr)
    End With
End Sub


Sub DownloadBroker8_DOM()
    Dim myStr As String
    Dim StockList
    Dim i As Integer
    Dim j As Integer
    Dim nRow As Integer
    Dim nCol As Byte
    Dim Arr()
    With CreateObject("WinHttp.WinHttpRequest.5.1")
        .Open "GET", "https://histock.tw/stock/broker8.aspx?d=2020-01-30", False
        .setrequestheader "Referer", "https://histock.tw/stock/broker8.aspx"
        .send
        myStr = .responsetext
    End With
    With CreateObject("HtmlFile")
        .write myStr
        Set StockList = .All.tags("ul")
        nRow = StockList(16).ChildNodes.Length
        nCol = StockList(16).ChildNodes(0).ChildNodes.Length
        ReDim Arr(0 To nRow, 0 To nCol)
        For i = 0 To nRow - 1
            For j = 0 To nCol - 1
                Arr(i, j) = StockList(16).ChildNodes(i).ChildNodes(j).innertext
            Next j
        Next i
        With ActiveSheet
            .Cells.Clear
            .Range("B1").Resize(1, 10) = Array("股票", "合庫", "土銀", "台銀", "台企銀", "彰銀", "第一金", "兆豐銀", "華南永昌", "合計(萬)")
            .Range("A2").Resize(nRow, nCol) = Arr
        End With
    End With
End Sub

Documents.zip

23.52 KB, 下载次数: 119

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-2-20 20:13 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

.Pattern = "(?=<span class=""w70"">|<span class=""w100 name"">)(.+?)</span>"
會獲得
<span class=""w70"">123</span>
要獲得其中的123,該如何改寫正則表達式?

TA的精华主题

TA的得分主题

发表于 2020-7-3 23:50 | 显示全部楼层
phsu 发表于 2020-2-20 20:13

.Pattern = "(?=|)(.+?)"
會獲得

我也有同样的问题,网页抓资料到单元格,不太会做,大師是否能帮忙

TA的精华主题

TA的得分主题

发表于 2021-9-16 11:34 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2022-3-2 21:12 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2022-3-3 08:59 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2022-4-25 17:22 | 显示全部楼层
本帖最后由 maxi20 于 2022-4-25 17:45 编辑

  查了好久才到这儿。
  复制,F8在.send那儿出错,三段程序都是。如下拷图怎么回事啊...
  我是XP ,Excel2007。

网抓3.jpg
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-3-29 17:52 , Processed in 0.062352 second(s), 14 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表