ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 5611|回复: 15

[求助] excel vba 抓取网页数据如何指定浏览器

[复制链接]

TA的精华主题

TA的得分主题

发表于 2020-1-8 12:05 | 显示全部楼层 |阅读模式
老师好,

我的一段抓取国外电商平台(亚马逊 amazon.com)的代码,

  1. Sub 亚马逊商品数据查询()
  2.     Dim SURL$, i%, Lrow&
  3.     Dim oHttp, tt$
  4.     Lrow = Sheet1.[J502].End(xlUp).Row '统计包含ASIN的单元格
  5.     For i = 3 To Lrow '定义第一条ASIN的行数
  6.         
  7.         DoEvents
  8.         
  9.         SURL = "https://www.amazon.com/dp/" & Cells(i, 10).Value
  10.         
  11.         'Set oHttp = CreateObject("WinHttp.WinHttpRequest.5.1")
  12.         Set oHttp = CreateObject("MSXML2.XMLHTTP")
  13.         With oHttp
  14.             .Open "GET", SURL, False
  15.             .send
  16.            ' tt = .responseBody
  17.             tt = .responseText
  18.              'tt = StrConv(.responsebody, vbUnicode)
  19.         End With
  20.         
  21.             
  22.     If InStr(tt, "<a id=""bylineInfo"" class") Then '抓取品牌
  23.         Sheet1.Cells(i, 13) = Split(Split(Split(tt, "<a id=""bylineInfo"" class")(1), "</a>")(0), ">")(1)
  24.         Else
  25.         Sheet1.Cells(i, 13) = "-"
  26.     End If
  27.       
  28.     If InStr(tt, "<span id=""productTitle"" class=""a-size-large"">") Then '抓取标题
  29.         Sheet1.Cells(i, 14) = Trim(Replace(Split(Split(tt, "<span id=""productTitle"" class=""a-size-large"">")(1), "</span>")(0), vbLf, ""))
  30.         Else
  31.         Sheet1.Cells(i, 14) = "-"
  32.     End If
  33.          
  34.     If InStr(tt, "<span id=""acrCustomerReviewText"" class=""a-size-base"">") Then '抓取评论
  35.         Sheet1.Cells(i, 15) = Split(Split(Split(tt, "<span id=""acrCustomerReviewText"" class=""a-size-base"">")(1), "</span>")(0), " ")(0)
  36.         Else
  37.         Sheet1.Cells(i, 15) = 0
  38.     End If
  39.         
  40.     If InStr(tt, "<span id=""acrPopover""") Then '抓取星级
  41.         Sheet1.Cells(i, 16) = Split(Split(Split(Split(tt, "<span id=""acrPopover""")(1), """>")(0), "title=""")(1), " ")(0)
  42.         Else
  43.         Sheet1.Cells(i, 16) = 0
  44.     End If
  45.    
  46.     If InStr(tt, "<a id=""askATFLink""") Then '抓取问答
  47.         Sheet1.Cells(i, 17) = Split(Trim(Replace(Split(Split(Split(tt, "<a id=""askATFLink""")(1), "</span>")(0), "<span class=""a-size-base"">")(1), vbLf, "")), " ")(0)
  48.         Else
  49.         Sheet1.Cells(i, 17) = 0
  50.     End If
  51.    
  52.     If InStr(tt, "<span id=""priceblock_ourprice""") Then '抓取价格
  53.         Sheet1.Cells(i, 18) = Split(Split(Split(tt, "<span id=""priceblock_ourprice""")(1), "</span>")(0), ">")(1)
  54.         Else
  55.         Sheet1.Cells(i, 18) = 0
  56.     End If

  57.     If InStr(tt, "<li id=""SalesRank"">") Then '抓取类目
  58.         Sheet1.Cells(i, 19) = Replace(Split(Split(Split(Split(tt, "<li id=""SalesRank"">")(1), "</a>")(0), " in ")(1), "(")(0), "&", "&")
  59.         Else
  60.         Sheet1.Cells(i, 19) = "-"
  61.     End If
  62.    
  63.     If InStr(tt, "<li id=""SalesRank"">") Then '抓取BSR1
  64.         Sheet1.Cells(i, 20) = Split(Split(Split(tt, "<li id=""SalesRank"">")(1), " in ")(0), "#")(1)
  65.         Else
  66.         Sheet1.Cells(i, 20) = 0
  67.     End If
  68.    
  69.         If InStr(tt, "<li id=""SalesRank"">") Then '抓取节点
  70.         Sheet1.Cells(i, 21) = Split(Split(Split(Split(Split(tt, "<li id=""SalesRank"">")(1), "</a></span>")(0), "</style>")(1), "<span class=""zg_hrsr_ladder""")(1), """>")(1)
  71.         Else
  72.         Sheet1.Cells(i, 21) = "-"
  73.     End If

  74.     If InStr(tt, "<li id=""SalesRank"">") Then '抓取BSR2
  75.         Sheet1.Cells(i, 22) = Split(Split(Split(Split(Split(tt, "<li id=""SalesRank"">")(1), "</a></span>")(0), "</style>")(1), "</span>")(0), "<span class=""zg_hrsr_rank"">#")(1)
  76.         Else
  77.         Sheet1.Cells(i, 22) = 0
  78.     End If
  79.      
  80.     Next i
  81.                   
  82. End Sub
复制代码



原来都可以正常抓取商品信息(标题,品牌,评论,星级...),但是最近抓取出现错误,商品本来是英文界面和数据,但是抓取的时候变成了中文内容,导致原代码运行错误,(这种现象在我们正常浏览商品页面的时候也会出现,但是只需要修改网站的语言设置就可以防止中文内容),请问:

能不能在代码中指定浏览器比如谷歌浏览器抓取数据(我想到的是不是代码打开了360或者ie网页,这两种网页都可能出现中文界面)

或者是不是其他的问题导致的?

还有,这段代码我想加一下 setRequestHeader 以避开网站的反爬体系,也希望得到老师的帮助

非常感谢老师的帮助

谢谢谢

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-1-8 12:28 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
谢谢 @心灵感应 老师再次帮我审核通过

TA的精华主题

TA的得分主题

发表于 2020-1-8 12:56 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
你用的是http请求抓取信息,这个只能用windows提供的组件,跟浏览器没啥关系的

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-1-8 12:58 | 显示全部楼层
huang1314wei 发表于 2020-1-8 12:56
你用的是http请求抓取信息,这个只能用windows提供的组件,跟浏览器没啥关系的

非常荣幸 非常感谢版主回复 请问怎么做呢 谢谢谢

TA的精华主题

TA的得分主题

发表于 2020-1-8 13:00 | 显示全部楼层
wwin80 发表于 2020-1-8 12:58
非常荣幸 非常感谢版主回复 请问怎么做呢 谢谢谢

用Selenium可以指定浏览器抓取,坛里面有VBA使用Selenium的教程,你去学一下就明白了

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-1-8 13:11 | 显示全部楼层
huang1314wei 发表于 2020-1-8 13:00
用Selenium可以指定浏览器抓取,坛里面有VBA使用Selenium的教程,你去学一下就明白了

非常感谢版主

TA的精华主题

TA的得分主题

发表于 2020-3-24 18:47 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
请问这个问题解决了吗,我用楼主的方法抓取信息,也发现了会变成中文导致不能抓取部分数据

TA的精华主题

TA的得分主题

 楼主| 发表于 2020-3-25 10:04 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
tcjstefan 发表于 2020-3-24 18:47
请问这个问题解决了吗,我用楼主的方法抓取信息,也发现了会变成中文导致不能抓取部分数据

找到答案了,你设置一下ie浏览器:1. 打开ie浏览器 2. 打开amazon.com 3. 设置网站浏览语言为英文 就可以了

TA的精华主题

TA的得分主题

发表于 2020-3-25 19:41 | 显示全部楼层
wwin80 发表于 2020-3-25 10:04
找到答案了,你设置一下ie浏览器:1. 打开ie浏览器 2. 打开amazon.com 3. 设置网站浏览语言为英文 就可以 ...

感谢楼主,看了楼主的帖子,大开眼界,我要向你学习。

TA的精华主题

TA的得分主题

发表于 2020-3-25 21:30 | 显示全部楼层
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-20 19:03 , Processed in 0.044445 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表