ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: bailanhong

[求助] 蓝天、html2013、ccwan大师看到进来看看 xmlhttp法不能翻页或IE法不能获取完整源代码

[复制链接]

TA的精华主题

TA的得分主题

发表于 2015-4-15 10:52 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 VBA万岁 于 2015-4-15 10:55 编辑
bailanhong 发表于 2015-4-14 22:08
非常感谢!!!


以下代码可在第一种IE法的基础上实现带图片及链接的取数:
  1. Sub IE获取摄影数据1()
  2. Dim shp As Shape, r0 As Long, p%, i%, j%, r, t
  3. Set My = ActiveSheet
  4. For Each shp In My.Shapes
  5.     If Left(shp.Name, 6) <> "Button" Then shp.Delete
  6. Next
  7. Cells.Clear
  8. On Error Resume Next
  9. With CreateObject("internetexplorer.application")
  10.     .Visible = True
  11.     .Navigate "http://www.cfh.ac.cn/Album/ShowAlbum.aspx?albumid=4b7af393-99db-4461-a7c5-daa98b9384e5&Username=arisaema&AspxAutoDetectCookieSupport=1"
  12.     Do Until .ReadyState = 4
  13.         DoEvents
  14.     Loop
  15.     'For p = 1 To Val(Split(Split(.Document.All.tags("span")("ctl00_ContentPlaceHolder_body_labPageMsg").innertext, "/")(1), "页")(0))
  16.     For p = 1 To 2
  17.         r0 = IIf(p = 1, 0, ActiveSheet.UsedRange.Rows.Count)
  18.         Set r = .Document.All.tags("table")(1).Rows
  19.         For i = 0 To r.Length - 1
  20.             For j = 0 To r(i).Cells.Length - 1
  21.                 With Cells(r0 + i + 1, j + 1)
  22.                     .Value = Chr(10) & Chr(10) & r(i).Cells(j).innertext
  23.                     ActiveSheet.Hyperlinks.Add Anchor:=Cells(r0 + i + 1, j + 1), Address:=Replace(r(i).Cells(j).All.tags("a")(1).href, "about:", "http://www.cfh.ac.cn")
  24.                     .Select
  25.                     ActiveSheet.Shapes.AddShape(msoShapeRectangle, .Left, .Top, .Width / 2, .Height / 2).Select
  26.                     Selection.ShapeRange.Fill.UserPicture Replace(r(i).Cells(j).All.tags("img")(0).src, "about:", "http://www.cfh.ac.cn")
  27.                     Selection.ShapeRange.Line.Visible = False
  28.                     ActiveSheet.Hyperlinks.Add Anchor:=Selection.ShapeRange.Item(1), Address:=Replace(r(i).Cells(j).All.tags("a")(0).href, "about:", "http://www.cfh.ac.cn")
  29.                 End With
  30.             Next j
  31.         Next i
  32.         'If p = Val(Split(Split(.Document.All.tags("span")("ctl00_ContentPlaceHolder_body_labPageMsg").innertext, "/")(1), "页")(0)) Then Exit Sub
  33.         If p = 2 Then Exit Sub
  34.         .Document.All.tags("input")("ctl00$ContentPlaceHolder_body$ImgBtnNext").Click
  35.         Do Until .ReadyState = 4
  36.             DoEvents
  37.         Loop
  38.         t = Timer
  39.         Do Until Timer > t + 10
  40.         Loop
  41.     Next p
  42. End With
  43. End Sub
复制代码

TA的精华主题

TA的得分主题

发表于 2015-4-15 10:59 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
VBA万岁 发表于 2015-4-15 10:52
以下代码可在第一种IE法的基础上实现带图片及链接的取数:

附件:
松江钟贾山摄影取数.zip (1.2 MB, 下载次数: 8)

TA的精华主题

TA的得分主题

发表于 2015-4-15 14:14 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
liucqa 发表于 2015-4-10 23:35
用fiddler抓包看一下post

在论及含有ViewState的帖子中,似乎只有你的网抓教程(二),我这里测试相关代码,到目前为止,最成功的也是你在教程(二)中所列举的那个经典的实例(查看专业资质排名)。
可在本帖楼主所指的网站中,抓包得到的PostData数据中,除了ViewState、EventValidation两个变量外,还有ctl00%24ContentPlaceHolder_body%24ImgBtnGoPage.x及ctl00%24ContentPlaceHolder_body%24ImgBtnGoPage.y两个变量,而且这个变量(x、y)似乎无法通过某一算法得出,也无法在responsetext数据中找到。试着任意设置两个数值,结果屡试不爽——提取多页数据始终为第一页数据的多次重复。
所以,不知学导能否指点一下。

点评

有些参数是网页里的js函数计算得到的 需要懂一些javascript 分析一下js函数  发表于 2015-4-15 16:09

TA的精华主题

TA的得分主题

发表于 2015-4-15 14:16 | 显示全部楼层
VBA万岁 发表于 2015-4-15 14:14
在论及含有ViewState的帖子中,似乎只有你的网抓教程(二),我这里测试相关代码,到目前为止,最成功的也 ...

我这里套用教程(二)示例的代码(运行不成功)如下:
  1. Sub MSXML2查看专业资质排名()
  2. Dim strAllItemName, aryIndex, html
  3. Cells.Clear
  4. On Error Resume Next
  5. Set html = CreateObject("htmlfile")
  6. Url = "http://www.cfh.ac.cn/Album/ShowAlbum.aspx?albumid=4b7af393-99db-4461-a7c5-daa98b9384e5&Username=arisaema&AspxAutoDetectCookieSupport=1"
  7. With CreateObject("msxml2.xmlhttp")
  8.     .Open "GET", Url, False
  9.     .send
  10.     viewstate = Split(Split(.responsetext, "__VIEWSTATE"" value=""", -1, vbTextCompare)(1), """", -1, vbTextCompare)(0)                          '取得VIEWSTATE的Post参数,去掉“, -1, vbTextCompare”也可
  11.     EventValidation = Split(Split(.responsetext, "__EVENTVALIDATION"" value=""", -1, vbTextCompare)(1), """", -1, vbTextCompare)(0)              '取得EVENTVALIDATION的Post参数
  12.     n = Val(Split(Split(.responsetext, "总共")(1), "张")(0))
  13.     p0 = Val(Split(Split(.responsetext, "当前是第1/")(1), "页")(0))
  14. End With
  15.    
  16. For p = 1 To 2
  17.     With CreateObject("msxml2.xmlhttp")
  18.         PostData = "__VIEWSTATE=" & EncodePostdata(viewstate) & _
  19.                    "&__EVENTVALIDATION=" & EncodePostdata(EventValidation) & _
  20.                    "&ctl00%24HiddenField_MasterUserName=" & _
  21.                    "&ctl00%24HiddenField_VisitorUserName=" & _
  22.                    "&ctl00%24CurrAlbumID=" & _
  23.                    "&ctl00%24ContentPlaceHolder_body%24CurrentAlbumId=4b7af393-99db-4461-a7c5-daa98b9384e5" & _
  24.                    "&ctl00%24ContentPlaceHolder_body%24TotalPhotos=" & n & _
  25.                    "&ctl00%24ContentPlaceHolder_body%24TotalPages=" & p0 & _
  26.                    "&ctl00%24ContentPlaceHolder_body%24CurrentPage=1" & _
  27.                    "&AlbumRefUrl=" & _
  28.                    "&ctl00%24ContentPlaceHolder_body%24TxtPageSn=" & p & _
  29.                    "&ctl00%24ContentPlaceHolder_body%24ImgBtnGoPage.x=22" & _
  30.                    "&ctl00%24ContentPlaceHolder_body%24ImgBtnGoPage.y=8"
  31.         .Open "POST", Url, False
  32.         .setRequestHeader "Referer", Url             '提交来源
  33.         .setRequestHeader "If-Modified-Since", "0"
  34.         .setRequestHeader "Content-Type", "application/x-www-form-urlencoded"                      'POST提交必备
  35.         .setRequestHeader "Content-Length", Len(PostData)                                                        'POST提交的长度信息
  36.         .setRequestHeader "Connection", "Keep-Alive"
  37.         .send (PostData)         ' 如果操作系统为XP,只有打上括号才能提交。(猜测可能和Unicode编码有关)

  38.         html.body.innerhtml = .responsetext
  39.         Set tb = html.all.tags("tr")
  40.         For a = 2 To tb.Length
  41.             For b = 0 To tb(a).Cells.Length - 1
  42.                 Cells((p - 1) * 10 + a - 1, b + 1) = tb(a).Cells(b).innertext
  43.             Next
  44.         Next

  45.         viewstate = Split(Split(.responsetext, "__VIEWSTATE"" value=""")(1), """")(0)                     '获取VIEWSTATE参数
  46.         EventValidation = Split(Split(.responsetext, "__EVENTVALIDATION"" value=""")(1), """")(0)   '获取EVENTVALIDATION参数
  47.     End With
  48. Next p
  49. End Sub

  50. Function EncodePostdata(szInput)
  51.     Dim i As Long
  52.     Dim x() As Byte
  53.     Dim szRet As String

  54.     szRet = ""
  55.     x = StrConv(szInput, vbFromUnicode)
  56.     For i = LBound(x) To UBound(x)
  57.         If x(i) >= 48 And x(i) <= 57 Or x(i) >= 65 And x(i) <= 90 Or x(i) >= 97 And x(i) <= 122 Then
  58.             szRet = szRet & Chr(x(i))
  59.         Else
  60.             szRet = szRet & "%" & Hex(x(i))
  61.         End If
  62.     Next
  63.     EncodePostdata = szRet
  64. End Function
复制代码

TA的精华主题

TA的得分主题

发表于 2015-4-15 14:47 | 显示全部楼层
VBA万岁 发表于 2015-4-15 14:14
在论及含有ViewState的帖子中,似乎只有你的网抓教程(二),我这里测试相关代码,到目前为止,最成功的也 ...

其实吧,这东西就是入门级的网抓而已,根本就不涉及什么算法,比如JS之类的
记得吴姐说过,只要不涉及加密的,都是可以直接藐视
对于这个,你可以仔细参考一下 http://club.excelhome.net/forum. ... 388&pid=8134043这里面的代码

TA的精华主题

TA的得分主题

发表于 2015-4-15 14:47 | 显示全部楼层
VBA万岁 发表于 2015-4-15 14:14
在论及含有ViewState的帖子中,似乎只有你的网抓教程(二),我这里测试相关代码,到目前为止,最成功的也 ...

其实吧,这东西就是入门级的网抓而已,根本就不涉及什么算法,比如JS之类的
记得吴姐说过,只要不涉及加密的,都是可以直接藐视
对于这个,你可以仔细参考一下 http://club.excelhome.net/forum. ... 388&pid=8134043这里面的代码

TA的精华主题

TA的得分主题

发表于 2015-4-15 16:05 | 显示全部楼层
本帖最后由 VBA万岁 于 2015-4-15 16:14 编辑
浮华、缠绕指尖 发表于 2015-4-15 14:47
其实吧,这东西就是入门级的网抓而已,根本就不涉及什么算法,比如JS之类的
记得吴姐说过,只要不涉及加 ...


不敢苟同,也不敢藐视,只因功底尚浅。
——仔细读过你在那个帖子中所写的代码,仍不见有所启发。所以,还是希望Super能写一个完整的代码以供我等入门级会员学习提高一下。

TA的精华主题

TA的得分主题

 楼主| 发表于 2015-4-15 23:24 | 显示全部楼层
再次感谢各位大师的帮助!!

TA的精华主题

TA的得分主题

发表于 2015-4-16 17:32 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
VBA万岁 发表于 2015-4-15 16:05
不敢苟同,也不敢藐视,只因功底尚浅。
——仔细读过你在那个帖子中所写的代码,仍不见有所启发。所以 ...

期待有高人续帖......

TA的精华主题

TA的得分主题

发表于 2015-4-17 09:28 | 显示全部楼层
'更正,再发一次

Sub Macro2()
    Cells.Clear
    Dim xml As Object, ViewState As String, S As String, url As String
    Dim Pc As Object, i, j, m
    Dim html As Object, db As Object, p, TotalPages, TotalPhotos
    Dim EventValidation As String

    url = "http://www.cfh.ac.cn/Album/ShowAlbum.aspx?albumid=4b7af393-99db-4461-a7c5-daa98b9384e5&Username=arisaema"
    Set xml = CreateObject("msxml2.xmlhttp")
    m = 0
    Do
        p = p + 1
        With xml
            .Open "GET", url, False
            .Send
            '获取ViewState\EventValidation
            ViewState = encodeURI(Split(Split(.responsetext, "VIEWSTATE"" value=""")(1), """ />")(0))
            EventValidation = encodeURI(Split(Split(.responsetext, "__EVENTVALIDATION"" value=""")(1), """ />")(0))
            '获取 TotalPhotos、TotalPages
            TotalPages = CInt(Split(Split(Split(.responsetext, "当前是第")(1), "/")(1), "页")(0))
            TotalPhotos = Split(Split(.responsetext, "总共")(1), "张")(0)
            S = "__VIEWSTATE=" & ViewState
            S = S + "&__EVENTVALIDATION=" & EventValidation
            S = S + "&ctl00%24ContentPlaceHolder_body%24CurrentAlbumId=4b7af393-99db-4461-a7c5-daa98b9384e5"
            S = S + "&ctl00%24ContentPlaceHolder_body%24TotalPhotos=" & TotalPhotos
            S = S + "&ctl00%24ContentPlaceHolder_body%24TotalPages=" & TotalPages
            S = S + "&ctl00%24ContentPlaceHolder_body%24ImgBtnGoPage.x=24"
            S = S + "&ctl00%24ContentPlaceHolder_body%24ImgBtnGoPage.y=9"
            S = S + "&ctl00%24ContentPlaceHolder_body%24TxtPageSn=" & p

            .Open "POST", url, False
            .SetRequestHeader "Content-Type", "application/x-www-form-urlencoded"
            .Send (S)
            S = .responsetext
        End With
        Set html = CreateObject("htmlfile")
        html.body.innerHTML = S
        Set db = html.all.tags("table")(1)
        For i = 0 To db.Rows.Length - 1
            m = m + 1
            For j = 0 To db.Rows(i).Cells.Length - 2
                Cells(m, j + 1) = Replace(db.Rows(i).Cells(j).innertext, Chr(10), "")
            Next j
        Next i
    Loop Until p = TotalPages
End Sub
Function encodeURI(ByVal strText As String) As String
    With CreateObject("msscriptcontrol.scriptcontrol")
        .Language = "JavaScript"
        encodeURI = .Eval("encodeURIComponent('" & strText & "');")
    End With
End Function

评分

2

查看全部评分

您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-10-7 04:36 , Processed in 0.051663 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表