ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: wcymiss

[原创] 不懂html也来学网抓(xmlhttp/winhttp+fiddler)

    [复制链接]

TA的精华主题

TA的得分主题

发表于 2014-10-30 21:29 | 显示全部楼层
本帖已被收录到知识树中,索引项:网页交互
renahu 发表于 2014-10-30 21:22
请问,这里标注的J3编码是什么意思
STxt = UTF8toChineseCharacters(STxt)                             ...

注意联系数据看代码使用。最好实测数据。我印象中是 \u003这种格式。

TA的精华主题

TA的得分主题

发表于 2014-10-30 21:30 | 显示全部楼层
153091086 发表于 2014-10-30 21:25
想请教一下大神们,怎样才能抓到中国知网上的论文列表(http://epub.cnki.net/kns/brief/result.aspx?dbPre ...

请从第1 页开始详细看本贴教程,自会有答案。

TA的精华主题

TA的得分主题

发表于 2014-10-30 21:36 | 显示全部楼层
按教程去抓取”http://epub.cnki.net/kns/brief/result.aspx?dbPrefix=CJFQ“论文列表数据,总是出现这个提示:
<script language=javascript >
alert('对不起,服务器上不存在此用户!可能已经被剔除或参数错误');
</script><script language='javascript'>
try{window.parent.HideWaitDiv();}catch(err){};</script>

吴姐,能否指点一下呀?

点评

如果过多地在脚本代码里打转,会把网抓的乐趣消失贻尽。碰到烦人的脚本代码,最好让浏览器帮我们处理,以节省精力。  发表于 2014-10-30 21:53
不用IE浏览器,网抓总是烦恼多多。  发表于 2014-10-30 21:47
抓取的时候就会出现提示?还是代码运行时出现提示?如果是后者,请检查代码是否完全模拟了整个的Request内容。  发表于 2014-10-30 21:39

TA的精华主题

TA的得分主题

发表于 2014-10-31 10:32 | 显示全部楼层
本帖最后由 renahu 于 2014-10-31 10:33 编辑
wcymiss 发表于 2014-10-21 11:25
vba网抓常用方法:(唠叨话,可略过)

1、xmlhttp/winhttp法:


吴老师,\u003这种格式是什么编码?

比如江苏七星彩这个例子中抓到的:

"  \u003cdiv class=\u0027kai_lwone\u0027\u003e \u003ctable width=\u0027100%\u0027 border=\u00270\u0027 cellspacing=\u00270\u0027 cellpadding=\u00272\u0027 class=\u0027kai_rbg3\u0027\u003e \u003ctr\u003e\u003ctd width=\u002760%\u0027 class=\u0027kai_rbg_zi\u0027\u003e江苏七星彩 开奖信息\u003c/td\u003e\u003ctd width=\u002740%\u0027 align=\u0027right\u0027\u003e开奖周期:\u003cfont color=\u0027#A20010\u0027\u003e周二、周四、周五、周日&nbsp;&nbsp;\u003c/font\u003e\u003c/td\u003e\u003c/tr\u003e\u003c/table\u003e\u003ctable width=\u0027100%\u0027 border=\u00270\u0027 align=\u0027center\u0027 cellpadding=\u00270\u0027 cellspacing=\u00270\u0027 bgcolor=\u0027#B6CBE8\u0027 class=\u0027MT6\u0027\u003e\u003ctr\u003e\u003ctd\u003e \u003cdiv\u003e \u003ctable cellspacing=\u00270\u0027 cellpadding=\u00270\u0027 rules=\u0027all\u0027 bordercolor=\u0027#B6CBE8\u0027 border=\u00271\u0027 id=\u0027MyGridView\u0027 style=\u0027width: 100%; border-collapse: collapse;\u0027\u003e \u003ctr\u003e \u003cth scope=\u0027col\u0027\u003e \u003cdiv style=\u0027height: 26px; background-color: #E9F3FE\u0027 class=\u0027L_zi1\u0027\u003e开奖时间\u003c/div\u003e\u003c/th\u003e\u003cth scope=\u0027col\u0027\u003e\u003cdiv style=\u0027height: 26px; background-color: #E9F3FE\u0027 class=\u0027L_zi1\u0027\u003e 期号\u003c/div\u003e\u003c/th\u003e\u003cth scope=\u0027col\u0027\u003e

点评

这个问题你完全可以百度。要我回答的话也是百度一段文字给你。  发表于 2014-10-31 10:38

TA的精华主题

TA的得分主题

发表于 2014-10-31 10:36 | 显示全部楼层
liangdonghao922 发表于 2014-10-30 20:29
老师能不能帮忙解释一下为什么一定要这样引用  按照常理 我上面的那种引用格式都是可以的喔?



不是方便不方便的问题


        .send "csrf_test_name=f52e9726d36d24aea77906fdbf0301f1&show_pwd=" & [a1] & "dosubmit=%E6%8F%90%E4%BA%A4"


.send "csrf_test_name=f52e9726d36d24aea77906fdbf0301f1&show_pwd=" & [a1] & "&dosubmit=%E6%8F%90%E4%BA%A4"

但是l两个返回的数据不一样  这样的引用是不是错的??   
为什么第一个的  的写法不可以?

点评

前者少了个"&",这个符号的作用是分隔各个参数。  发表于 2014-10-31 10:41

TA的精华主题

TA的得分主题

发表于 2014-10-31 10:49 | 显示全部楼层
liangdonghao222 发表于 2014-10-31 10:36
不是方便不方便的问题

猛得一醒,居然这都看漏,,真谢谢,
还有3个问题想资讯一下;
1:类似发帖之类的 避免不了要输入验证码,用ie的方法还好整,如果xml遇到验证码怎么办
2:有时GET方式,debug  .responseytext  的数据不全(有些不显示,网站是utf8的)就算我赋值到单元格中       查找不出?原因何在
3:xml方法卡机的原因是?(有时运行很长时间,卡机了)

希望能回复一下

TA的精华主题

TA的得分主题

发表于 2014-10-31 10:57 | 显示全部楼层
liangdonghao222 发表于 2014-10-31 10:49
猛得一醒,居然这都看漏,,真谢谢,
还有3个问题想资讯一下;
1:类似发帖之类的 避免不了要输入验证码 ...

早就给你加粗红字提醒你,到现在才醒,说你心不在焉呢~~

TA的精华主题

TA的得分主题

发表于 2014-10-31 11:03 | 显示全部楼层
coby001 发表于 2014-10-31 10:57
早就给你加粗红字提醒你,到现在才醒,说你心不在焉呢~~

是啊,一直苦想为什么我那样引用就结果不对,真心抱歉啊

TA的精华主题

TA的得分主题

发表于 2014-10-31 11:09 | 显示全部楼层
liangdonghao222 发表于 2014-10-31 10:49
猛得一醒,居然这都看漏,,真谢谢,
还有3个问题想资讯一下;
1:类似发帖之类的 避免不了要输入验证码 ...

1、get 验证码图片
2、写到txt文件里
3、超时,就结束进程,或设置“超时”--timeout

--------
另外:是xmlhttp,不要只说xml,引起误解。xml是文档格式,xmlhttp重在http链接。不要漏了。

TA的精华主题

TA的得分主题

发表于 2014-10-31 11:14 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
coby001 发表于 2014-10-31 11:09
1、get 验证码图片
2、写到txt文件里
3、超时,就结束进程,或设置“超时”--timeout

1:get验证码图片 是要下载下来显示到窗体?
2:我明白,但是我赋值到单元格里面也是全部内容显示,就是找不到我要的?
3:能随便写个代码 怎么写超时?我不知道具体是哪个步骤耗时,ie的方法我还知道 do 用时到一定程度   直接end sub
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-15 18:33 , Processed in 0.038385 second(s), 6 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表