ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 2306|回复: 8

[求助] 获取网页数据

[复制链接]

TA的精华主题

TA的得分主题

发表于 2018-9-3 18:03 | 显示全部楼层 |阅读模式
hi,我想要统计这19页评价出现的颜色及颜色出现的次数,如截图。因为按照平时的话,都是要每页点开来查看。所以想直接用宏来操作,能做到吗?多谢。要操作的网页如下链接:

https://www.amazon.co.uk/4sold-R ... ws&pageNumber=1

获取数据的结果.png
获取网页数据.png

获取网页数据.rar

8.45 KB, 下载次数: 32

TA的精华主题

TA的得分主题

发表于 2018-9-3 18:37 来自手机 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-9-3 19:12 | 显示全部楼层

那代码怎么写?能帮忙写一下代码吗?多谢

TA的精华主题

TA的得分主题

发表于 2018-9-3 19:51 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
  1. Sub t()
  2. Dim arr(1 To 190), brr, i%, p&, d
  3. Set d = CreateObject("Scripting.Dictionary")
  4. With CreateObject("Microsoft.XMLHTTP")
  5. For p = 1 To 19
  6.                 .Open "POST", "https://www.amazon.co.uk/4sold-Rita-Womens-Knitted-Snowboard/product-reviews/B01LDCDDOS/ref=cm_cr_getr_d_paging_btm_1?ie=UTF8&reviewerType=all_reviews&pageNumber=" & p, False
  7.          .Send
  8.          brr = Split(.responsetext, "Colour: ")
  9.          For i = 4 To UBound(brr)
  10.          arr(i - 3) = Split(brr(i), "<")(0)
  11.          d(arr(i - 3)) = d(arr(i - 3)) + 1
  12.          Next i, p
  13.       End With
  14.        [a1].Resize(d.Count, 1) = Application.Transpose(d.keys)
  15.        [b1].Resize(d.Count, 1) = Application.Transpose(d.Items)
  16. End Sub
复制代码

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-9-3 20:11 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

非常多谢,可以了。能麻烦解释一下数字“4”,“3”和“<”这3个地方是代表什么吗?如截图。多谢
代码解释.png

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-9-3 20:24 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

还有一个问题,能让它显示的时候,直接按次数降序排序?

TA的精华主题

TA的得分主题

发表于 2018-9-3 20:37 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2018-9-3 20:38 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 719404338 于 2018-9-3 20:40 编辑

首先说那个"4",用“colour:”第一次分割后,第一个颜色出现在brr(4)中;
再说那个小余符号“<”,第二次分割时,颜色后面都有“<”;
最后说"i-3",i是从4开始循环的,i-3=1,数组从1开始装入。

懂了,就点个花嘛。

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2018-9-3 21:25 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
结果:{'Dark Grey': 20, 'Beige': 21, 'White': 13, 'Dark Red': 9, 'Olive': 3, 'Gray': 36, 'Pink': 12, 'Black': 37, 'Ecru': 4, 'Navy': 24, 'Fuchsia': 2}


import requests
from lxml import etree
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}
colors=[]
def parser_page(url):
    try:
        resp = requests.get(url,headers=headers)
        text = resp.text
        html = etree.HTML(text)
        data = html.xpath('//div[@id="cm_cr-review_list"]//a[@data-hook]/span/text()')

        for color in data:
            color = color.split(":")[1].strip()
            colors.append(color)
        print(colors)
    except Exception as e:
        print("出现异常-->"+str(e))



def main():
    base_url='https://www.amazon.co.uk/4sold-Rita-Womens-Knitted-Snowboard/product-reviews/B01LDCDDOS/?ie=UTF8&reviewerType=all_reviews&pageNumber={}'
    for x in range(1,20):
        url=base_url.format(x)
        parser_page(url)

    d = {}
    for color in colors:
        if not color in d:
            d[color]=1
        else:
            d[color]=d[color]+1
    print(d)


if __name__ =='__main__':
    main()
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-13 13:24 , Processed in 0.028978 second(s), 15 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表