抓取复制网站上的小说

相见是缘8 · 发表于 2019-5-17 07:51

duquancai 发表于 2019-5-16 12:30
世上无难事，只怕有心人

理是这么个理，可人生短暂，不太可能事事都用 “愚公移山” 的精神，绝大部分的事也只能是：租、借、买、求助…的方式来解决！老师、你说对吗？

相见是缘8 · 发表于 2019-5-17 07:52

本帖最后由相见是缘8 于 2019-5-17 07:55 编辑

413191246se 发表于 2019-5-16 14:16
相见，杜老师的意思是让你安装 version: Python 3.7.0（网络搜索下载安装一个），然后再应用该宏即可，我 ...

老师、以下载安装了一个，可还是用不了！唉！正如网上说的，内行与外行之间也就是隔了一层窗户纸！可这个只是对内行来说，对外行来说这层窗户纸就是一座山！

相见是缘8 · 发表于 2019-5-17 07:53

andy800529 发表于 2019-5-16 14:20
这个问题超纲了（在本版面的范围之外了）

也是碰运气，看能不能遇到懂这个方面的老师，也不知道那里有这个专门的板块，你能否推荐一下？

413191246se · 发表于 2019-5-17 09:18

相见，请打开 Python（派森） v3.7.0 然后再应用杜老师代码试试，就像 VBA 宏要在 VCE 中应用一样。

duquancai · 发表于 2019-5-17 23:22

本帖最后由 duquancai 于 2019-5-18 10:30 编辑

相见是缘8 发表于 2019-5-17 07:53
也是碰运气，看能不能遇到懂这个方面的老师，也不知道那里有这个专门的板块，你能否推荐一下？

周末有点时间，我就用WordVba写个代码，把《绝魔之地狱之门》下载到当前Word文档
Dim xmlhttp As Object, doc As Document
Sub main()
Dim host_url$
Set xmlhttp = CreateObject("msxml2.xmlhttp")
host_url = "https://www.ddshubao.com"
Set doc = ActiveDocument
doc.Content.Text = Empty
doc.Content.Text = "绝魔之地狱之门" + vbCr
Call get_url(host_url)
MsgBox "下载完毕！"
End Sub
Sub get_url(host_url)
Dim strText$, list_url, i&
xmlhttp.Open "GET", host_url & "/book/1221/", False
xmlhttp.send
strText = xmlhttp.responseText
list_url = Split(Split(Split(strText, "allchapter")(1), "show-more")(0), "<a href=""")
For i = 1 To UBound(list_url)
      Call get_Article(Split(host_url & list_url(i), """>")(0), host_url)
Next
End Sub
Sub get_Article(url, host_url)
Dim strText$, tem_str$, temp$, s_url$
xmlhttp.Open "GET", url, False
xmlhttp.send
strText = xmlhttp.responseText
temp = Split(Split(strText, "readbox")(1), "")(0)
Call parse_Article(temp)
if_str = Split(temp, "下一页</a>")
If UBound(if_str) = 2 Then
      s_url = Split(Split(Split(if_str(0), "小说详情</a>")(1), "<a href=""")(1), """")(0)
      xmlhttp.Open "GET", host_url + s_url, False
      xmlhttp.send
      temp = Split(Split(xmlhttp.responseText, "readbox")(1), "")(0)
      Call parse_Article(temp)
End If
End Sub
Sub parse_Article(tem_str)
Dim temp$, re As Object
Set re = CreateObject("VBScript.Regexp")
re.Global = True: re.Pattern = "<?br\s*/>|(?:<p[^>]*[^<]*</p>)"
temp = Split(Split(tem_str, "<h1>")(1), "</h1>")(0) + vbCr
temp = temp + Split(Split(tem_str, "content"">")(1), "</div>")(0)
temp = Replace(temp, " ", " ")
temp = re.Replace(temp, vbCr)
doc.Bookmarks("\EndOfDoc").Range.InsertAfter temp
End Sub

相见是缘8 · 发表于 2019-5-18 06:50

413191246se 发表于 2019-5-17 09:18
相见，请打开 Python（派森） v3.7.0 然后再应用杜老师代码试试，就像 VBA 宏要在 VCE 中应用一样。

试了多次还是不成，水平没到没办法！

zhanglei1371 · 发表于 2019-5-18 14:02

相见是缘8 发表于 2019-5-18 06:50
试了多次还是不成，水平没到没办法！

python的运行不是只靠一个py安装程序的，而是需要一个很大的包——Package库的支持。
前面的import的地方，需要requests，需要parsel，这些若没有，运行个P。
而parsel似乎是来自于scrapy的一个小弟，安装scrapy，很费劲。你百度下就知道了。
安装requests比较简单，直接使用下面的命令：
pip install requests ，不行的话就下面这个：
pip install requests -i http://pypi.douban.com/simple --trusted-host=pypi.douban.com
至于scrapy的安装，lz可以研究下。我试了半小时也没有成功。因为难点在于，百度上找不到简单的安装方法。正统的安装需要一大堆命令和文件，这些东西都是提供的官网地址。下载速度慢死。也就没有过多测试。
以“python中Scrapy的安装详细过程”为关键词搜索，可以得到这些信息：
安装python
安装pywin32
安装setuptools
安装twisted
安装zopeinterface
安装pyopenssl
安装twisted
安装lxml
安装w3lib
安装Scrapy
Scrapy测试
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
Lz可以研究下。成功了发个完整的教程出来，和需要的文件。

413191246se · 发表于 2019-5-19 00:33

杜先生 15 楼代码写得太花花了，宛如天书！看不懂，叹为观止！

相见是缘8 · 发表于 2019-5-19 07:05

duquancai 发表于 2019-5-17 23:22
周末有点时间，我就用WordVba写个代码，把《绝魔之地狱之门》下载到当前Word文档
Dim xmlhttp As Object ...

感谢杜老师出手相助！
杜老师、我测试好像只能提取 “绝魔之地狱之门” 这7个字，并提示：错误424，不知我那里没弄好，还望你指教！谢谢！

相见是缘8 · 发表于 2019-5-19 07:06

zhanglei1371 发表于 2019-5-18 14:02
python的运行不是只靠一个py安装程序的，而是需要一个很大的包——Package库的支持。
前面的import的地 ...

感谢 zhanglei1371 老师指教！
这个连你弄都麻烦，我就不要谈了，期待老师的教程贴出来！

		自动登录	找回密码
密码			免费注册

[求助] 抓取复制网站上的小说