抓取复制网站上的小说

相见是缘8 · 发表于 2019-5-14 11:05

本帖最后由相见是缘8 于 2019-5-14 15:40 编辑

求老师写一个能逐页抓取复制该网站上整部小说的宏，谢谢！
小说网址：https://www.ddshubao.com/book/1221/254297.html

补充内容 (2019-5-23 08:06):
哈哈！问题圆满解决了！
真是“孤陋寡闻”，昨天才听一朋友说：网上早就有多种“傻瓜式”的免费采集软件，该类软件可以采集绝大多数网页上各类的数据。随便下了一款“八爪鱼采集器”，网上看一下它的有关教程...

补充内容 (2019-5-23 08:08):
采集一部约70万字（共335章、每章2页）的小说，也就5～6分钟的时间，一字不漏且按顺序排列，真是捧极了！
问题需然是用软件解决了，但还是要感谢各位老师的帮助！真心感谢！

duquancai · 发表于 2019-5-15 10:13

这是网络爬虫范畴了。论坛有贴，只能慢慢学了。

duquancai · 发表于 2019-5-15 22:22

# version: Python 3.7.0
import requests,parsel,os
headers = {'User-Agent': '(KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}
host_url = 'https://www.ddshubao.com'
def get_total_url():
r = requests.get(url=f'{host_url}/book/1221/', headers=headers,verify=False)
li_list = parsel.Selector(r.content.decode('gb18030')).css('#allchapter li')
for li_url in li_list:
get_Article(li_url.css('a::attr(href)').get())
def get_Article(url):
r = requests.get(url=f'{host_url}{url}', headers=headers,verify=False)
tem_str = r.content.decode('gb18030')
parse_Article(tem_str)
down = parsel.Selector(tem_str).xpath('//div[@class="content-nav down"]/a[last()]/text()').get()
if down == "下一页":
next_url = parsel.Selector(tem_str).xpath('//div[@class="content-nav down"]/a[last()]/@href').get()
r = requests.get(url=f'{host_url}{next_url}', headers=headers, verify=False)
parse_Article(r.content.decode('gb18030'))
def parse_Article(text):
sel = parsel.Selector(text).css('div.readbox')
temp = sel.xpath("h1/text()").getall()
temp.extend(sel.xpath("./div[@class='content']/text()").getall())
tem_str = '\n'.join(temp)
file_pointer.write(f"{tem_str}\n")
if __name__ == '__main__':
path_file = r'D:\result.txt'#自定义txt文件！！！
if os.path.isfile(path_file): os.remove(path_file)
file_pointer = open(path_file, 'w',encoding='utf-8')
file_pointer.write('绝魔之地狱之门\n')
get_total_url()
file_pointer.close()

复制代码

相见是缘8 · 发表于 2019-5-16 06:44

duquancai 发表于 2019-5-15 10:13
这是网络爬虫范畴了。论坛有贴，只能慢慢学了。

感谢老师回复！这个凭我目前的水平一下掌握不了，期待有懂这个的老师出手帮忙！

相见是缘8 · 发表于 2019-5-16 08:55

duquancai 发表于 2019-5-15 22:22

老师、刚看到这个代码（早上回复时没注意），这个代码要怎么用？还请指教！谢谢！

duquancai · 发表于 2019-5-16 09:10

相见是缘8 发表于 2019-5-16 08:55
老师、刚看到这个代码（早上回复时没注意），这个代码要怎么用？还请指教！谢谢！

学习Python语言

相见是缘8 · 发表于 2019-5-16 10:40

duquancai 发表于 2019-5-16 09:10
学习Python语言

谢谢！可这个对我太难了！

duquancai · 发表于 2019-5-16 12:30

相见是缘8 发表于 2019-5-16 10:40
谢谢！可这个对我太难了！

世上无难事，只怕有心人

413191246se · 发表于 2019-5-16 14:16

相见，杜老师的意思是让你安装 version: Python 3.7.0（网络搜索下载安装一个），然后再应用该宏即可，我想。

andy800529 · 发表于 2019-5-16 14:20

这个问题超纲了（在本版面的范围之外了）

		自动登录	找回密码
密码			免费注册

[求助] 抓取复制网站上的小说