ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 13883|回复: 13

[转帖] 教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程

[复制链接]

TA的精华主题

TA的得分主题

发表于 2012-11-17 14:50 | 显示全部楼层 |阅读模式

最近在研究抓网,然本人愚钝,在论坛里学了很多牛人们的一点皮毛,始终不得要领。今天网上遇到好东西,不敢独享,拿来先给有需要的朋友。

原文:http://www.crifan.com/use_ie9_f12_to_analysis_the_internal_logical_process_of_login_baidu_main_page_website/

【前提】
想要实现使用某种语言,比如Python,C#等,去实现模拟登陆网站的话,首先要做的事情就是使用某种工具,去分析本身使用浏览器去登陆网页的时候,其内部的执行过程,内部逻辑。
此登陆的逻辑过程,主要指的是,需要访问哪些地址,提交哪些http请求,其中包含了有哪些查询关键字,涉及到哪些post的数据,涉及到哪些cookie等等。
只有知道了内部逻辑过程,才能谈及,使用某种语言去实现,模拟,此套登陆网站的过程。

关于分析工具,其实有很多种,此处选用,之前在
【总结】浏览器中的开发人员工具(IE9的F12和Chrome的Ctrl+Shift+I)-网页分析的利器
所介绍的IE9的F12。

在分析之前,虽然不需要你有太多的网络相关的基础,但是,如果真正想要熟悉分析网站抓取,模拟网站登陆的话,还是需要了解相关的知识的。
其中,和cookie相关的内容,可参考:
【总结】浏览器中的开发人员工具(IE9的F12和Chrome的Ctrl+Shift+I)-网页分析的利器

接下来的所有操作,实际上就是,在IE9中,手动操作一遍,登陆百度首页的过程而已。

2.模拟操作过程,利用工具抓取所需的整个过程
点击“登陆”:
http://www.baidu.com/index.php
以及,对应的抓取到了很多内容:

好了,到此为止,我们的操作,基本就结束了。
剩下的,就是从我们所已经抓取到的信息中,找到是如何登陆的。

3.分析网站登陆的内部逻辑过程
3.1找到登陆网站所涉及的最核心的地址
对于熟悉的人,可以直接从那一堆的url中,找到哪个是登陆的页面。
而现在假定你不熟悉,教你如何找到真正的有价值的信息。
对于此处,我们可以想到的一种办法是,通过直接搜索密码,而搜到哪里发送了我们的密码:

【小提示:显示内容时,设置为 自动换行】
当抓取出来的Request Body,Response Body等部分的内容中,单行内容太长,一行显示不下,不方便查看时,可以点击右键,选择Word wrap:
即可实现自动换行显示的效果了,方便查看了:

此处,很容易看到,此处和我们密码相关的url地址为:
https://passport.baidu.com/v2/api/?login
即,以后如果想要写代码的话,所要访问的url地址,就是这个地址了。

3.2分析所提交的数据(post data)中的参数和值

而且,此处的Request Body,就是对应的http的POST请求中所要提交的数据,简称为post data。
此处Request Body中完整的数据为(注:以下数据,是另外一次分析出来的结果,对解释分析过程无影响):
ppui_logintime=6852&charset=utf-8&codestring=&token=5ab690978812b0e7fbbe1bfc267b90b3&isPhone=false&index=0&u=&safeflg=0&staticpage=http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html&loginType=1&tpl=mn&callback=parent.bdPass.api.login._postCallback&username=crifan&password=xxxxxx&verifycode=&mem_pass=on
然后处理一下就是:
ppui_logintime=6852&
charset=utf-8&
codestring=&
token=5ab690978812b0e7fbbe1bfc267b90b3&
isPhone=false&
index=0&
u=&
safeflg=0&
staticpage=http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html&
loginType=1&
tpl=mn&
callback=parent.bdPass.api.login._postCallback&
username=crifan&
password=xxxxxx&
verifycode=&
mem_pass=on
再去掉后面的那个&字符,变为:
ppui_logintime=6852
charset=utf-8
codestring=
token=5ab690978812b0e7fbbe1bfc267b90b3
isPhone=false
index=0
u=
safeflg=0
staticpage=http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html
loginType=1
tpl=mn
callback=parent.bdPass.api.login._postCallback
username=crifan
password=xxxxxx
verifycode=
mem_pass=on
很明显,此处就是模拟网站登录的核心数据了,是在写代码时,对于
url=https://passport.baidu.com/v2/api/?login
提交POST请求时,所以要发送的一些参数和值了。

此处,再重新简要的介绍一下,模拟登陆网站的基本逻辑:
想要模拟网站登陆,就要知道,要向什么url地址,发送什么样的数据,GET请求还是POST请求。
  • GET请求只从服务器请求数据,不需要所谓的post data,但是往往需要在url后面添加上对应的?para1=val1&para2=value2之类的形式,此部分叫做query parameter,其本质上,有点类似于post data;
  • POST请求,在发送请求时,还需要提供对应的post data,此处即对应着IE9的F12中的Request Body。
    • 而余下的,发送请求时的其他相关参数设置,主要就是设置很多基本的参数,包括user-agent等,此处对应着那个Request Headers

而提交请求后,网站的服务器会给你反馈,返回数据和信息给你。
此处对应的就是Response Headers和Response Body。
经常地,其中还涉及到cookie等信息。在发送之前,准备好,发送给服务器,服务器返回的信息中,往往也包含,更新后,cookie的值。
对应的这部分内容,是Cookies部分。
此处,把所有的内容,分别截图如下:
Request Headers
Request Body:
Response Headers:
Response body:
Cookies:


评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-11-17 14:53 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 hhh5460 于 2012-11-17 14:58 编辑

接下来,就是分析,如何获得所需的信息。

先分析上述的post data中的值:
ppui_logintime=6852
charset=utf-8
codestring=
token=5ab690978812b0e7fbbe1bfc267b90b3
isPhone=false
index=0
u=
safeflg=0
staticpage=http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html
loginType=1
tpl=mn
callback=parent.bdPass.api.login._postCallback
username=crifan
password=xxxxxx
verifycode=
mem_pass=on
都是怎么来的。
分析值是如何来的,以及顺带说说,写代码时,如何设置这些值。
在此之前,先解释一下,在代码中关于如何设置这些参数的值的规律和经验:
(1)对于有参数,但是值为空的哪些参数,一般来说,都是可以省略的。
即写代码时,是可以去掉,忽略掉,这些参数的;
当然,如果你抓取出来的参数是有值的,则需要考虑其值是怎么得到的,是否有意义,否则随便忽略掉某些参数,可能会导致模拟登陆失败的。
(2)对于,看不太懂的参数的值的情况下,不妨先使用抓取出来的数据
尤其是一些参数,看不太懂,而且其值又明显不是那种,很可能会变化的数字之类的值,则一般情况下,也都是固定的值,所以,即使对于参数和值本身不太了解,也无所谓,也都可以直接在代码中,直接使用抓取出来的数据即可。
即使会导致出错,一般来说,也可以通过后续的多次抓取和分析,看出来该值真正的规律。

在上面那一堆参数和值中:
(1)一些很明显,是固定的值,不需要考虑太多的值有:
charset=utf-8 -> 表示当前网页的编码是utf-8,我们写代码照着写即可,不需要改;
codestring= ->此处为空,所以也可以不理会;

isPhone=false -> 很明显,此处是通过PC登陆百度的,不是通过手机类的移动设备登陆的,所以是false。所以写代码时,也设置为false即可;
细心的读者,也很容易回想起,此处是对应着之前的登陆界面中的“手机登陆”:
如果是我们是通过“手机登陆”百度时,不出意外的话,肯定参数是isPhone=true

index=0 -> 未知,但是也没看出来是什么含义,所以也直接设置为0即可;
u=-> 空值,同样设置空值即可;
safeflg=0 -> 未知,所以也可以暂且不管,同样设置为0即可。
username=crifan -> 很明显,是我们的账号,不多解释;
password=xxxxxx -> 同理,是对应的密码;
verifycode= ->此处为空,所以也可以不管;
mem_pass=on -> 很明显,是memory password的所写,即记住密码,对应的页面是,我们已经勾选的”记住我的登陆状态”:

(2)另外一些就是不太容易一眼就看出来的值,需要简单解释一下的:
staticpage=http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html ->
此处,等有了一定的调试经验,和本身具有一定的url的encode,decode基础的话,可以直接看出来,这个值
http%3A%2F%2Fwww.baidu.com%2Fcache%2Fuser%2Fhtml%2Fjump.html
是原先某个url地址,编码之后的值。
而对应的原始的值,可以在代码中去解码而获得;
此处先直接给出原始值:
http://www.baidu.com/cache/user/html/jump.html
等写具体代码时,再解释如何操作。

loginType=1 -> 未知,但是一般不知道的值,都可以先按照原先的值去设置即可;
tpl=mn -> 未知,也还是同样设置即可;
callback=parent.bdPass.api.login._postCallback -> 未知,也同样设置即可;

(3)再剩下的,就是需要去分析调查,才知道为何是这样值的了:
ppui_logintime=6852
此值6852,看起来就像是会变化的。但是到底如何得到的,则需要去分析分析了。
所以就去搜索6852:
经过搜索,发现结果只能搜到此单独一处的6852,貌似没办法找到此数据如何得到的。
但是,我们可以再去搜其参数ppui_logintime,然后另外在别的文件中也可以找到2处,其中一处是:
很明显,此处是javascript脚本:
https://passport.baidu.com/js/pass_api_login.js?v=20121018
在其中根据实际情况计算出来的。

【小提示:对于参数的处理策略】
对于涉及的很多参数,总的说,有两种策略:
一是,直接忽略此值,暂时不管。因为很多时候,有些参数,至少是这样看起来,不是那么重要的参数(重要的参数,相信我不说你自己也能看出来,是那些username,password之类的参数)。
然后就去写程序去模拟了。而真的等到程序运行出错,服务器没有返回你所期望的信息的时候,再回来分析此参数,看看是不是这个参数所导致的。
然后再试图去分析其真正的值;
二是,继续分析,甚至调试javascript代码,以便找到此值到底是如何一点点计算出来的。此过程可能会极其繁琐,也可能相对简单。要取决于此值被计算出来所经历的过程的复杂度。

此处,在表面看起来,这个参数ppui_logintime,大概意思是登陆的时间,所以推测是服务器为了记录你本地登陆百度的时间,和能否登陆百度这个过程本身,应该不会产生根本的影响,所以此处就可以采用策略一,暂时忽略不管。
万一真的有影响,再回来继续分析也不迟。

token=5ab690978812b0e7fbbe1bfc267b90b3 ->
此值5ab690978812b0e7fbbe1bfc267b90b3,很明显,是需要从别的地方找到的。所以就去分析此值是如何来的。
同理,继续去搜5ab690978812b0e7fbbe1bfc267b90b3,然后是可以搜到的,然后通过点击搜索框中的向前和向后的按钮,是可以找到这个
2/68 条记录,对应url是:
https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true
的这处的:
https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true
然后会获得Response Body,即(服务器所返回的)html源码,其中包括了:
[backcolor=white !important]
[backcolor=rgb(108, 226, 108) !important][backcolor=initial !important]https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true
发送GET请求,获得对应的html代码,然后从中分析出token的值5ab690978812b0e7fbbe1bfc267b90b3;

而写到此,基本逻辑过程,也相对清楚了。
但是有人很快会想到,即使上述代码写出来了,又如何能确保的确已经模拟登陆成功了,即如何验证此处模拟登陆百度首页成功了呢?
此处,根据经验,主要通过两方面来验证:

【小提示:如何验证模拟登陆网站已成功】
一是返回的html代码
返回的html代码,即对应着F12中的Response Body,此处为截图如下:
?

[backcolor=white !important]1

[backcolor=white !important]2

[backcolor=white !important]3

[backcolor=white !important]4

[backcolor=white !important]5

[backcolor=white !important]6

[backcolor=initial !important][backcolor=white !important][backcolor=initial !important][size=1em]Direction   Key Value   Expires Domain  Path    Secure  HTTP only
[backcolor=white !important][backcolor=initial !important][size=1em]Received    BDUSS   WpNYWFNSGFub0t6YU9PMW1tVzNIUGRya35TQk5pM0JnflI2fndrT3UtQmdESVpSQVFBQUFBJCQAAAAAAAAAAAoavCuy1YMAY3JpZmFuAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAYIArMAAAALDmT5YqAAAA6p5DAAAAAAAxMC4yNi4xOWC-mFBgvphQM    Sat, 23-Jan-2021 07:38:08 GMT   baidu.com   /   No  No
[backcolor=white !important][backcolor=initial !important][size=1em]Received    PTOKEN  b42a396ff9c7efb80c08beecd040f032    Sat, 23-Jan-2021 07:38:08 GMT   passport.baidu.com  /   No  No
[backcolor=white !important][backcolor=initial !important][size=1em]Received    STOKEN  f38612b7866cfb0357877b8ca3c4faa6    Sat, 23-Jan-2021 07:38:08 GMT   passport.baidu.com  /   No  No
[backcolor=white !important][backcolor=initial !important][size=1em]Received    PTOKEN  deleted Mon, 07-Nov-2011 07:38:07 GMT   baidu.com   /   No  No
[backcolor=white !important][backcolor=initial !important][size=1em]Received    SAVEUSERID  345baf769053e0ed4234    Sat, 23-Jan-2021 07:38:08 GMT   passport.baidu.com  /   No  No



而当代码模拟登陆成功后,则也肯定会收到类似的cookie的。


TA的精华主题

TA的得分主题

 楼主| 发表于 2012-11-17 15:00 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册

【小提示:关于cookie,需要注意的事情】

此处,需要特别提示一句,如果你在最开始没有去清除cookie,则很可能看到的cookie结果是这样的:

即,登陆前后的cookie,都有BDUSS,PTOKEN,STOKEN,SAVEUSERID。

这是因为,之前通过别的账号,以及同样的账号crifan,登陆过,所以IE9已经在本地记录了相关的cookie。

所以,在访问该url时,能看到Sent中已经存在了类似的cookie。


所以,总的来说,可以通过返回的html和cookie,来验证是否登录成功了。


而一般来说,通过验证cookie,是最有效的。因为很多时候,某些网站登陆成功和登陆失败,所显示的页面可能是同一个;

但是登陆成功的话,基本都会有对应的,新的,和登陆有关的cookie,返回的。


一般来说,实际上,对于很多不是很复杂的网站,到这一步,就完全就够了,就能够成功模拟登陆了。

但是,后来经过代码的证实,如上的流程,实际上是行不通的,因为对于去访问:

https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true

实际上,返回的html是:

[backcolor=white !important][size=1em]
[backcolor=rgb(108, 226, 108) !important]
[color=white !important][backcolor=initial !important][size=1em]https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true

再次重现抓取所看到的结果为:

https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true

时,提供BAIDUID这个cookie。


另外,再确认一下,访问:

?


[backcolor=white !important][size=1em]1

[backcolor=white !important][size=1em]2

[backcolor=white !important][size=1em]3

[backcolor=white !important][size=1em]4

[backcolor=white !important][size=1em]5

[backcolor=white !important][size=1em]6

[backcolor=white !important][size=1em]7

[backcolor=initial !important][size=1em][backcolor=white !important][size=1em]Direction   Key Value   Expires Domain  Path    Secure  HTTP only
[backcolor=white !important][size=1em]Sent    BAIDUID D612E3728B8647FB61867F6A7FB9D9CD:FG=1                  
[backcolor=white !important][size=1em]Received    BDUSS   lxMkVCTHNMUlljSk9ERXgtNjZoZ3Q0S2tZbHBvUDFBSzZOUmk3ZHhza1JNSVpSQVFBQUFBJCQAAAAAAAAAAApRIA6y1YMAY3JpZmFuAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACAYIArMAAAALA2xXUAAAAA6p5DAAAAAAAxMC4yNi4xORHimFAR4phQbW    Sat, 23-Jan-2021 10:10:25 GMT   baidu.com   /   No  No
[backcolor=white !important][size=1em]Received    PTOKEN  44cd9fe37e3f4a3a14811cc9ac0e0bf1    Sat, 23-Jan-2021 10:10:25 GMT   passport.baidu.com  /   No  No
[backcolor=white !important][size=1em]Received    STOKEN  9f262998a4613536bfdaa41f08f54f62    Sat, 23-Jan-2021 10:10:25 GMT   passport.baidu.com  /   No  No
[backcolor=white !important][size=1em]Received    PTOKEN  deleted Mon, 07-Nov-2011 10:10:24 GMT   baidu.com   /   No  No
[backcolor=white !important][size=1em]Received    SAVEUSERID  345baf769053e0ed4234    Sat, 23-Jan-2021 10:10:25 GMT   passport.baidu.com  /   No  No



可见,其中至少包括:

BDUSS,PTOKEN,STOKEN,SAVEUSERID

(其中,对于原先域名为baidu.com的PTOKEN,是被删除掉的,此处暂可忽略)



TA的精华主题

TA的得分主题

 楼主| 发表于 2012-11-17 15:07 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册


3.3 总结出模拟登陆网站的基本流程

至此,对于想要模拟登陆百度首页:

http://www.baidu.com/

的内部逻辑过程,基本上就很清楚了:

顺序
访问地址
访问类型
发送的数据
需要获得/提取的返回的值
1
http://www.baidu.com/
GET
返回的cookie中的BAIDUID
2
https://passport.baidu.com/v2/api/?getapi&class=login&tpl=mn&tangram=true
GET
包含BAIDUID这个cookie
从返回的html中提取出token的值
3
https://passport.baidu.com/v2/api/?login
POST
一堆的post data,其中token的值是之前提取出来的
需要验证返回的cookie中,是否包含BDUSS,PTOKEN,STOKEN,SAVEUSERID

【小提示:分析模拟登陆时,未必非得要完全搞懂和在代码中用到所有的参数】

对于上述流程,按理来说,去使用代码,Python或C#等,去实现出来,即可。

不过,关于模拟登陆时所需要的数据,多解释一下。

按理来说,完整的模拟网站登陆的话,其实应该是从头到尾的,分析出浏览器(IE9)本身是如何访问网站的,然后把所有的逻辑搞懂,数据的来源都分析清楚,即如上述过程,对于访问

https://passport.baidu.com/v2/api/?login

所需要的那么一堆参数,都去搞懂具体的含义,以及参数的值,是怎么获得的。

而实际上,很多时候,模拟网站登陆,或者是抓取网页信息的时候,只需要最关心的那些核心参数即可。

因为,服务器,很可能,只是去判断那些核心参数,比如上述的username,password,及其他几个参数,

然后就可以正确返回你所需要的信息,即html,cookie等,就可以成功实现模拟登陆的目的了。

但是,话说回来,具体需要哪些,最基本的参数,还是需要通过写程序,去一点点测试出来的。

而之所以给大家介绍上述的概念,目的是为了,在你觉得自己能看懂参数的大概含义的时候,很多时候,能看出该参数不要也无所谓的时候,那就可以先去测试基本的参数,而暂时忽略其他相对次要的参数。

由此,在一定程度上,提高做事情的效率而已。

当然,在忽略参数的时候,也要注意,不要轻易忽略很多参数,否则也是很可能影响到程序模拟登陆的正确性的。

具体的尺度的把握,就一点:根据情况而定,自己看着办。


【总结】

至此,关于模拟登陆网站,如何一步步的分析出内部逻辑过程,就完成了。

总结下来就是,先去用工具“录制”你所有的操作,然后再去利用工具去分析和登陆有关那些url的相关的信息,主要是post data有哪些参数,以及其值是如何获得的。


模拟登陆网站的内部逻辑过程分析完毕后,就可以去通过代码去实现了:

【教程】模拟登陆网站 之 Python版


TA的精华主题

TA的得分主题

发表于 2012-11-17 15:16 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2012-11-17 16:11 | 显示全部楼层
虽然很长,但初学者有耐心可以看看。

TA的精华主题

TA的得分主题

发表于 2012-11-17 16:27 | 显示全部楼层
登陆的问题,无非就是:分析POST指针的参数和值的问题,复杂问题简单化

TA的精华主题

TA的得分主题

发表于 2012-11-18 22:09 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2013-1-29 00:25 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2013-2-3 11:54 | 显示全部楼层
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-15 08:00 , Processed in 0.027588 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表