ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: min177

[求助] 用excelVBA实现需登录网站批量信息的提取(紧急)

[复制链接]

TA的精华主题

TA的得分主题

发表于 2012-7-12 10:44 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
kangatang 发表于 2012-7-12 10:40
侠圣,能否给个例子让我们学习学习

你随便找个网站用ie登录,然后用xmlhttp发一个get,就会看到xmlhttp也登录了

TA的精华主题

TA的得分主题

发表于 2012-7-13 12:00 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
因为网址里面有个 “SID=......”,我不确定在楼主电脑上是不是相同或者会不会过时失效
请帮忙调试附件,如果出现"失败",那就不行。
webknoledge.rar (851 Bytes, 下载次数: 83)

TA的精华主题

TA的得分主题

发表于 2012-7-13 12:37 | 显示全部楼层
本帖最后由 kangatang 于 2012-7-13 12:48 编辑

登陆,跳转到搜索页的工作已经完成,接下来开始做关键词搜索。提取你要的内容。

PS. 最近比较忙,我相信很多朋友跟我一样,只能白天上班时挤出时间参与EH的事情。尤其是像我们家里有小孩。周末都是奉献给他的。
经常来这里,就是图一个对兴趣的极大满足。我的行业和专业是食品制造,跟VBA无关。

TA的精华主题

TA的得分主题

发表于 2012-7-13 13:21 | 显示全部楼层
本帖最后由 引子玄 于 2012-7-13 13:23 编辑

抓取可是程序自动化当中的高难技术,非一日之功就可以修成正果的。楼主要看到这层认识,好做出清醒的判断。

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-15 11:38 | 显示全部楼层
kangatang 发表于 2012-7-13 12:37
登陆,跳转到搜索页的工作已经完成,接下来开始做关键词搜索。提取你要的内容。

PS. 最近比较忙,我相信 ...

感谢啊!我先下来试试,幸苦了 谢谢您

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-15 11:51 | 显示全部楼层
kangatang 发表于 2012-7-13 12:37
登陆,跳转到搜索页的工作已经完成,接下来开始做关键词搜索。提取你要的内容。

PS. 最近比较忙,我相信 ...

出现了这个情况 。请帮忙看看
QQ截图20120715114955.png

TA的精华主题

TA的得分主题

发表于 2012-7-16 15:48 | 显示全部楼层
本帖最后由 kangatang 于 2012-7-16 22:47 编辑

基本上已经好了,现在还要吗?
运行前,把附件webofk.txt拷贝到目录D:\kangatang下。(用于POST数据)
然后直接运行vbs文件即可。看到"ok"后。新建txt文件,然后打开、粘贴,另存为.html文件。应该看到第60个记录。
如果加个循环就可以逐条提取。
提取邮件地址用正则
Dim regex, matchs, ss, arr()
Set oDict = CreateObject("Scripting.Dictionary")
Set regex = CreateObject("VBSCRIPT.REGEXP")

regex.Global = True
regex.Pattern = "\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*"
Set matchs = regex.Execute(source_data)
ReDim trimed_arr(matchs.Count - 1)
For i = Lbound(trimed_arr) To Ubound(trimed_arr)
   trimed_arr(i) = matchs.Item(i) & vbCrLf
Next
test.rar (2.29 KB, 下载次数: 56)

TA的精华主题

TA的得分主题

发表于 2012-7-16 22:56 | 显示全部楼层
kangatang 发表于 2012-7-16 15:48
基本上已经好了,现在还要吗?
运行前,把附件webofk.txt拷贝到目录D:\kangatang下。(用于POST数据)
然后 ...

其中一个有效的 sid = 4FEGcgfo6lpjL6bcBGJ

TA的精华主题

TA的得分主题

发表于 2012-7-17 00:46 | 显示全部楼层
本帖最后由 kangatang 于 2012-7-17 01:04 编辑

帮你搞定了,见附件:请将webofk.txt放到文件夹D:\kangatang下。
download.rar (20.79 KB, 下载次数: 108)

1,刚开始的登陆和打开搜索页面会比较慢,后面的下载会感觉快一点。我只循环了55次,下载更多请增加数字,比如1000
2,必须及时更新SID(时效有几个小时吧,反正今天下午到现在,我一直在用同一个SID),获得有效SID的方法:
打开https://libproxy.eku.edu/login?qurl=http%3a%2f%2fisiknowledge.com
输入
user: Bridgette_knight8
password: comma14down
跳转到网页后,从网址中查找"sid=......"的字符串(比如黑体部分...search_mode=GeneralSearch&SID=4B99c3EE3C8hGlL@lbe&preferencesSaved=)

df.jpg

TA的精华主题

TA的得分主题

发表于 2012-7-17 01:07 | 显示全部楼层
min177,昨天你在线,为什么给我回复。雷锋可能也是兴趣使然。这样说来我还要谢谢提问者。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-10 17:56 , Processed in 0.027532 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表