ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 865|回复: 16

[求助] 关于网址内容抓取

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-5-1 12:20 | 显示全部楼层 |阅读模式
https://www.eshukan.com/SuperSearchList.aspx?keyword=&classify=0&wenZhong=-1&kanQi=0&area=0&level=0&heXin=0&puKan=0&first=0&countrySupport=0&college=0&yxyz=0&hornor=0&contentIncluded=0&doubleAnonymous=0&comment=0&gaoFei=0&banMianFei=0&banMianFeiArea=0&shenGaoTime=-1&hot=-1&method=Email%E6%8A%95%E7%A8%BF  


哪位高手,帮忙写一款用于抓取该网址投稿邮箱地址和名称的代码

TA的精华主题

TA的得分主题

发表于 2024-5-1 21:40 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
名称的代码是什么?

TA的精华主题

TA的得分主题

发表于 2024-5-1 22:05 | 显示全部楼层
import requests
from lxml import etree
page = 1
url = "https://www.eshukan.com/SuperSearchList.aspx?keyword=&classify=0&wenZhong=-1&kanQi=0&area=0&level=0&heXin=0" \
      "&puKan=0&first=0&countrySupport=0&college=0&yxyz=0&hornor=0&contentIncluded=0&doubleAnonymous=0&comment=0" \
      "&gaoFei=0&banMianFei=0&banMianFeiArea=0&shenGaoTime=-1&hot=-1&method=Email%E6%8A%95%E7%A8%BF"
responese = requests.get(url)
html = etree.HTML(responese.text)
# 获取本页的所有投稿信息网址
urls = html.xpath('//*[@id="allclass"]//a/@href')
for url in urls:
    print(url)

TA的精华主题

TA的得分主题

发表于 2024-5-1 22:22 | 显示全部楼层
这个网站没有任何反爬很简单。

TA的精华主题

TA的得分主题

发表于 2024-5-1 22:58 | 显示全部楼层
先爬取了10页的自己看看

投稿信息.zip

117.31 KB, 下载次数: 22

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-5-3 07:37 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2024-5-3 16:29 | 显示全部楼层
沈默00 发表于 2024-5-3 07:37
邮箱是从哪里找?

就在网页元素里面。要进入下一级网页。

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-5-7 11:06 | 显示全部楼层
65861954 发表于 2024-5-1 21:40
名称的代码是什么?

就是投稿的编辑部和投稿邮箱。要是单独把这两项提取出来就好了

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-5-7 11:08 | 显示全部楼层
沈默00 发表于 2024-5-3 07:37
邮箱是从哪里找?

邮箱从各投稿编辑部的下级网页的   给编辑部投稿--> Email投稿中提取

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-5-7 14:44 | 显示全部楼层
65861954 发表于 2024-5-1 22:05
import requests
from lxml import etree
page = 1

就是要提取下级网页这两个地方:编辑部和邮箱
微信图片_20240507144136.png
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-21 17:04 , Processed in 0.047231 second(s), 15 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表