ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
12
返回列表 发新帖
楼主: qjy321

[求助] 关于网址内容抓取

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-5-14 08:36 | 显示全部楼层
65861954 发表于 2024-5-1 22:05
import requests
from lxml import etree
page = 1

请教一下,html.xpath方法?

TA的精华主题

TA的得分主题

发表于 2024-5-14 14:25 | 显示全部楼层
  1. from bs4 import BeautifulSoup
  2. import requests

  3. start_page, end_page = 1, 5
  4. urls, res = [], []

  5. for i in range(start_page, end_page+1):
  6.     url = f'https://www.eshukan.com/SuperSearchList.aspx?keyword=&classify=0&wenZhong=-1&kanQi=0&area=0&level=0&heXin=0&puKan=0&first=0&countrySupport=0&college=0&yxyz=0&hornor=0&contentIncluded=0&doubleAnonymous=0&comment=0&gaoFei=0&banMianFei=0&banMianFeiArea=0&shenGaoTime=-1&hot=-1&method=Email%E6%8A%95%E7%A8%BF&page={i}'
  7.     html = requests.get(url=url)
  8.     soup = BeautifulSoup(html.text)
  9.     for link in soup.select('#allclass a'):
  10.         urls.append([f'https://www.eshukan.com{link.get("href")}',link.text.strip()])

  11. for url, name in urls:
  12.     html = requests.get(url=url)
  13.     if html.status_code == 200:
  14.         soup = BeautifulSoup(html.text)
  15.         bjb, email='请自行前往详情页查找', '请自行前往详情页查找'
  16.         for info in soup.select('.sjcon p'):
  17.             bjb = info.text.strip() if '编辑部:' in info.text else bjb
  18.             email = info.text.strip() if '邮箱' in info.text else email
  19.         res.append([name, bjb, email, url])

  20. print(res)
复制代码
image.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-5-14 17:35 | 显示全部楼层
LIUZHU 发表于 2024-5-14 08:36
请教一下,html.xpath方法?

你百度一下,这个xpath不是一两句话能说清楚的

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-5-14 23:09 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

老师,生成的文件存在哪里?

TA的精华主题

TA的得分主题

发表于 2024-5-15 10:45 | 显示全部楼层
有res结果列表了,再调个xlwings或者openpyxl库写到Excel里。只爬了40页,后头要验证码了。

40.zip

49.5 KB, 下载次数: 4

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-5-15 19:31 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
yaofengda 发表于 2024-5-15 10:45
有res结果列表了,再调个xlwings或者openpyxl库写到Excel里。只爬了40页,后头要验证码了。

哦,非常感谢!网站会将IP拉黑吗

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-5-15 22:21 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
沈默00 发表于 2024-5-3 07:37
邮箱是从哪里找?

这是用什么方法抓取的
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-21 16:57 , Processed in 0.038529 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表