关于网址内容抓取

LIUZHU · 发表于 2024-5-14 08:36

65861954 发表于 2024-5-1 22:05
import requests
from lxml import etree
page = 1

请教一下，html.xpath方法？

yaofengda · 发表于 2024-5-14 14:25

from bs4 import BeautifulSoup
import requests
start_page, end_page = 1, 5
urls, res = [], []
for i in range(start_page, end_page+1):
url = f'https://www.eshukan.com/SuperSearchList.aspx?keyword=&classify=0&wenZhong=-1&kanQi=0&area=0&level=0&heXin=0&puKan=0&first=0&countrySupport=0&college=0&yxyz=0&hornor=0&contentIncluded=0&doubleAnonymous=0&comment=0&gaoFei=0&banMianFei=0&banMianFeiArea=0&shenGaoTime=-1&hot=-1&method=Email%E6%8A%95%E7%A8%BF&page={i}'
html = requests.get(url=url)
soup = BeautifulSoup(html.text)
for link in soup.select('#allclass a'):
urls.append([f'https://www.eshukan.com{link.get("href")}',link.text.strip()])
for url, name in urls:
html = requests.get(url=url)
if html.status_code == 200:
soup = BeautifulSoup(html.text)
bjb, email='请自行前往详情页查找', '请自行前往详情页查找'
for info in soup.select('.sjcon p'):
bjb = info.text.strip() if '编辑部：' in info.text else bjb
email = info.text.strip() if '邮箱' in info.text else email
res.append([name, bjb, email, url])
print(res)

复制代码

65861954 · 发表于 2024-5-14 17:35

LIUZHU 发表于 2024-5-14 08:36
请教一下，html.xpath方法？

你百度一下，这个xpath不是一两句话能说清楚的

qjy321 · 发表于 2024-5-14 23:09

yaofengda 发表于 2024-5-14 14:25

老师，生成的文件存在哪里？

yaofengda · 发表于 2024-5-15 10:45

有res结果列表了，再调个xlwings或者openpyxl库写到Excel里。只爬了40页，后头要验证码了。

qjy321 · 发表于 2024-5-15 19:31

yaofengda 发表于 2024-5-15 10:45
有res结果列表了，再调个xlwings或者openpyxl库写到Excel里。只爬了40页，后头要验证码了。

哦，非常感谢！网站会将IP拉黑吗

qjy321 · 发表于 2024-5-15 22:21

沈默00 发表于 2024-5-3 07:37
邮箱是从哪里找？

这是用什么方法抓取的

		自动登录	找回密码
密码			免费注册

[求助] 关于网址内容抓取