ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 3095|回复: 12

[求助] 网爬数据最优方案!!!

[复制链接]

TA的精华主题

TA的得分主题

发表于 2018-6-13 11:39 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
以下网爬代码总觉得不够理想,还能怎么优化?网爬数据到底有没有最优方案?呵呵
  1. Sub kao()
  2.     [a2:c2] = Split("统计时间 在线人数 波动值")
  3.     Dim regx, i%, mh, tt, p, m, PostData
  4.    
  5.     Set regx = CreateObject("vbscript.regexp")
  6.     regx.Pattern = "<td>(.*?)</td>"    '注意中文的括号(全角)
  7.     regx.Global = True
  8.    
  9.     For p = 1 To 7
  10.    
  11.         PostData = "PageIndex=" & p & "&__RequestVerificationToken=CfDJ8Oxgi0PF5dtKgteCEWR3ZKKzhWUHnMIkczUHpAA12yTUk-KolOww9ZYTIz6y8-tIfgH2yCgFH-DCVvplmsOa2aRf8VuJtozMmUX_clPPMks-XT6jl3vSufB9_l7nCiRKDdhrvCjTdqPEx7XgPW2-DTk"
  12.         With CreateObject("msxml2.xmlhttp")
  13.             .Open "POST", "http://www.77tj.org/tencent/", False
  14.             .setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
  15.             .send (PostData)
  16.             tt = .responsetext
  17.         End With
  18.         tt = Split(tt, "<table class=""gridview"">")(1)
  19.         
  20.         Set mh = regx.Execute(tt)
  21.         For i = 0 To mh.Count - 1 Step 3
  22.             m = m + 1
  23.             For j = 1 To 3
  24.                 Cells(m + 2, j) = Replace(mh(i + j - 1).submatches(0), "+", "+")
  25.             Next
  26.         Next
  27.     Next
  28.    
  29.     Columns("A:C").Columns.AutoFit
  30.     MsgBox "job is okey"
  31. End Sub
复制代码


TA的精华主题

TA的得分主题

发表于 2018-6-13 12:26 来自手机 | 显示全部楼层
网抓数据建议转python,requests库配合lxml进行XPath解析,或者用正则,方便太多了

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-6-13 12:45 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
jiangtaowoo 发表于 2018-6-13 12:26
网抓数据建议转python,requests库配合lxml进行XPath解析,或者用正则,方便太多了

帮忙把代码改出来呗,有些不是很会用

TA的精华主题

TA的得分主题

发表于 2018-6-13 13:50 来自手机 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2018-6-13 14:53 | 显示全部楼层
老师的程序已经很强啦,是网站响应慢!

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-6-23 13:05 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2018-6-24 11:09 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2018-6-24 17:56 | 显示全部楼层
来个更麻烦的
  1. Sub Main()
  2.     Dim strText As String, p As Integer
  3.     Cells.Clear
  4.     With CreateObject("MSXML2.XMLHTTP")
  5.         For p = 1 To 7
  6.             PostData = "PageIndex=" & p & "&__RequestVerificationToken=CfDJ8Oxgi0PF5dtKgteCEWR3ZKKzhWUHnMIkczUHpAA12yTUk-KolOww9ZYTIz6y8-tIfgH2yCgFH-DCVvplmsOa2aRf8VuJtozMmUX_clPPMks-XT6jl3vSufB9_l7nCiRKDdhrvCjTdqPEx7XgPW2-DTk"
  7.             .Open "POST", "http://www.77tj.org/tencent/", False
  8.             .setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
  9.             .Send (PostData)
  10.             strText = .responsetext

  11.             strText = "<table" & Split(Split(strText, "<table")(1), "</table>")(0) & "</table>"
  12.             If p = 1 Then
  13.                 t = "        <tr>"
  14.                 t = t + vbCrLf + "            <th>统计时间</th>"
  15.                 t = t + vbCrLf + "            <th>在线人数</th>"
  16.                 t = t + vbCrLf + "            <th>波动值</th>"
  17.                 t = t + vbCrLf + "        </tr>"
  18.             Else
  19.                 strText = Replace(strText, t, "")
  20.             End If
  21.             CopyToClipbox strText
  22.             Cells(Rows.Count, 1).End(xlUp).Offset(IIf(p = 1, 0, 1), 0).Select
  23.             ActiveSheet.Paste
  24.         Next p
  25.     End With

  26. End Sub
  27. Sub CopyToClipbox(strText As String)
  28. '文本拷贝到剪贴板
  29.     With CreateObject("new:{1C3B4210-F441-11CE-B9EA-00AA006B1A69}")
  30.         .SetText strText
  31.         .PutInClipboard
  32.     End With
  33. End Sub
复制代码

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-6-24 23:45 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-6-24 23:56 | 显示全部楼层

我测试的时候显示“无法运行”是怎么问题啊?你测试过了没
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-12-27 05:21 , Processed in 0.033101 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表