Excel2013如何抓取网页多页指定数据

344046229 · 发表于 2019-4-21 22:14

那位前辈有空指点一下如下：
http://www.kshome.com.cn:8087/soldlist.aspx?page=1（合计103页）

不胜感激QQ344046229可以红包感谢

changhong8 · 发表于 2019-4-22 07:05

结果见附件

EH_LOVE · 发表于 2019-4-21 23:15

可联系 2729311948 最近专门研究这块

qcw911 · 发表于 2019-4-21 23:53

page=1 变化这里就行了

duquancai · 发表于 2019-4-22 01:40

# -*- coding: utf-8 -*-
# version: Python 3.7.0
import requests,os,csv,parsel
def get_html(data):
r = requests.get(base_url, params=data, headers=headers)
parse_html(r.content.decode('utf-8'))
def parse_html(text):
tr_list = parsel.Selector(text).xpath('//*[@id="div_listing"]//tr[not(@class)][not(td[div])]')
for tr in tr_list:
td_list = [td.xpath('string(.)').get() for td in tr.xpath('td')]
csv.writer(f_point).writerow(td_list)
if __name__ == '__main__':
file_path = r'D:\result.csv'#自定义保存的csv文件
if os.path.isfile(file_path): os.remove(file_path)
f_point = open(file_path, 'a', encoding='utf-8-sig', newline='')
csv.writer(f_point).writerow(['挂牌编号','行政区','房屋座落','房屋用途','建筑面积','售价(万)','上架时间'])
headers = {'User-Agent': '(KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
base_url = 'http://www.kshome.com.cn:8087/soldlist.aspx'
for i in range(5):#设置抓取页数，也可以动态获取“总页数”！！！
get_html({'page': i+1})
f_point.close()

复制代码

changhong8 · 发表于 2019-4-22 06:54

写好了，待会发上来

344046229 · 发表于 2019-4-23 16:19

duquancai 发表于 2019-4-22 01:40

谢谢非常感谢

344046229 · 发表于 2019-4-23 16:23

changhong8 发表于 2019-4-22 07:05
结果见附件

非常感谢，相当OK

344046229 · 发表于 2019-4-23 20:05

changhong8 发表于 2019-4-22 07:05
结果见附件

前辈怎么红包感谢你啊

		自动登录	找回密码
密码			免费注册

[求助] Excel2013如何抓取网页多页指定数据