ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: 风雨相随3

[求助] 网 抓慕课网课目

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-5-21 20:07 | 显示全部楼层
kimmyyang 发表于 2019-5-21 17:58
用VBA可能比较麻烦,可以用Python

python还要下 软件不?

TA的精华主题

TA的得分主题

发表于 2019-5-22 02:15 | 显示全部楼层
python代码,但是每次读到89页就没有数据,报错退出......不知问题出在哪里,看来水平还是太菜了
  1. # -*- coding: utf-8 -*-
  2. from selenium import webdriver
  3. from time import sleep
  4. import csv

  5. driver = webdriver.Chrome()
  6. url = 'http://www.icourse163.org/category/all'
  7. driver.get(url)
  8. fields = ['编号','课程名称', '开课单位', '网址链接']
  9. sleep(5)    #打开时页面底部有广告遮挡"下一页",留时间点掉
  10. m = 0
  11. with open('课程列表.csv','w', newline='') as f:
  12.     wrt = csv.DictWriter(f, fieldnames=fields)
  13.     wrt.writeheader()
  14.     while True:
  15.         sleep(0.5)
  16.         div_list = driver.find_elements_by_xpath('//div[@class="u-clist f-bgw f-cb f-pr j-href ga-click"]')
  17.         n = 0   #每一页的序号从1开始,所以换页后n重置为0
  18.         for div in div_list:
  19.             item = {}
  20.             n += 1
  21.             item['编号'] = n
  22.             item['课程名称'] = div.find_element_by_xpath('.//div[@class="t1 f-f0 f-cb first-row"]/a').text
  23.             item['开课单位'] = div.find_element_by_xpath('.//div[@class="t2 f-fc3 f-nowrp f-f0"]/a').text
  24.             item['网址链接'] = div.find_element_by_xpath('.//div[@class="t1 f-f0 f-cb first-row"]/a').get_attribute('href')
  25.             wrt.writerow(item)
  26.         m += 1
  27.         #点击下面页码无法导航到最后一页,找不到最后一个'下一页'的class,只好用m值来判断是否读取所有页面
  28.         if m > 155:
  29.             break
  30.         #点击'下一页'
  31.         driver.find_element_by_xpath('//li[@class="ux-pager_btn ux-pager_btn__next"]').click()
复制代码

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-5-22 05:03 来自手机 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
用VBA可能比较麻烦,希网抓大神出手!

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-5-22 07:19 | 显示全部楼层
qingc0221 发表于 2019-5-22 02:15
python代码,但是每次读到89页就没有数据,报错退出......不知问题出在哪里,看来水平还是太菜了

要在什么软件运行?

TA的精华主题

TA的得分主题

发表于 2019-5-22 09:15 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-5-22 10:22 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
不知为什吗只抓了1754个?

1754.rar

71.6 KB, 下载次数: 18

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2019-5-22 10:51 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-5-22 11:27 | 显示全部楼层
本帖最后由 Kaohsing 于 2019-5-22 11:30 编辑
  1. <blockquote>G:\py37\python.exe "D:/Documents/Tencent Files/907490349/FileRecv/caipiao_five.py"
复制代码


TA的精华主题

TA的得分主题

发表于 2019-5-22 11:51 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
Kaohsing 发表于 2019-5-22 10:22
不知为什吗只抓了1754个?

怎么抓的?没有代码,只有的结果

TA的精华主题

TA的得分主题

发表于 2019-5-22 12:11 | 显示全部楼层
网站有新增数据,刚刚重新运行抓了1755条
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-12-26 20:44 , Processed in 0.041301 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表