用VBA按网页下拉框指定期号抓取所需内容

WYS67 · 发表于 2018-12-1 12:24

本帖最后由 WYS67 于 2018-12-1 13:12 编辑

开奖历史下拉框.zip (644.3 KB, 下载次数: 15)

江苏快三开奖历史数据.zip (11.9 KB, 下载次数: 23)

请教高手大神们：想按附件E列的说明和要求，抓取指定网页下拉框里指定期号范围的所有数据，用VBA能不能实现？
抓取出的数据存放在A:C列里，如下图所示：

WYS67 · 发表于 2018-12-1 13:23

希望大神们写出代码。

WYS67 · 发表于 2018-12-1 15:49

希望大神们帮忙写出代码。

WYS67 · 发表于 2018-12-1 16:51

恳请大神们帮忙写出代码

WYS67 · 发表于 2018-12-1 19:11

恳请大神们帮忙写出代码

WYS67 · 发表于 2018-12-1 20:22

恳请大神们帮忙写出代码

WYS67 · 发表于 2018-12-1 21:03

恳请大神们帮忙写出代码

WYS67 · 发表于 2018-12-1 22:54

恳请大神们帮忙写出代码

WYS67 · 发表于 2018-12-2 01:50

难道VBA无法抓取下拉框里逐个指定期号包括的数据内容吗？

duquancai · 发表于 2018-12-2 06:25

WYS67 发表于 2018-12-1 22:54
恳请大神们帮忙写出代码

python3.7 高并发异步爬虫
抓取 2015-11-03 到 2018-12-01 的数据并写入Excel，总计运行时间在30秒内完成！

# -*- coding: utf-8 -*-
import asyncio, aiohttp
import async_timeout, time, re
import pandas as pd
#信号量，控制协程数，防止爬取太快！
headers = {"User-Agent": "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6"}
async def get_html(url,sess):
with async_timeout.timeout(20):#设置请求的最长时间为20s
async with sess.get(url, headers=headers) as res:
if res.status == 200:
text = await res.text(encoding='gb2312')
return text
async def crawl_spder(url):
async with aiohttp.ClientSession() as sess:
text = await get_html(url,sess)
parse_html(text)
def parse_html(text):
global df
if text:
data_list = r.findall(str(text))
df = df.append(data_list)
def crawl():
date_list = pd.date_range('2015-11-03', '2018-12-01')
date_list = [pd.Timestamp(x).strftime("%Y%m%d") for x in date_list.values]
start_url = 'http://kaijiang.500.com/static/info/kaijiang/xml/jsk3/{}.xml?_A=UAHNMCOE{}'
tasks = [crawl_spder(start_url)]
for data in date_list:
rand_time = str(int(round(time.time() * 1000)))
url = start_url.format(data, rand_time)
tasks.append(crawl_spder(url))
loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.wait(tasks))
loop.close()
if __name__ == '__main__':
t = time.time()
r = re.compile(r'<row\s*expect="(\d+)"\s*opencode="([^"]+)"\s*opentime="([^"]+)"\s*/>')
df = pd.DataFrame()
crawl()
with pd.ExcelWriter(r'output.xls') as writer: # 写入Excel文件,可以更改文件路径
df.columns = ['期号', '号码', '时间']
df.to_excel(writer, 'Sheet1', index=False, header=True)
print(time.time()-t)

复制代码

		自动登录	找回密码
密码			免费注册

[求助] 用VBA按网页下拉框指定期号抓取所需内容