ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 16975|回复: 33

[求助] (网页采集)如何在网上批量查询信息并提取到Excel(网页有图片验证码)

[复制链接]

TA的精华主题

TA的得分主题

发表于 2013-1-30 17:33 | 显示全部楼层 |阅读模式
本帖最后由 shenghua8 于 2013-3-7 14:52 编辑

  由于工作需要,每年需要在同一个网页里查询大量信息,一个一个的查询太麻烦,所以求助各位高手,帮我制作一个批量查询的程序。

  网页有图片校验码,且每次刷新网页后校验码自动变更。

  此帖提供的附件中,个人信息都作了处理,都是虚假信息,避免泄露个人隐私。


  附件如下:
批量查询信息.zip (5.17 KB, 下载次数: 247)

TA的精华主题

TA的得分主题

 楼主| 发表于 2013-1-30 18:05 | 显示全部楼层
请各位帮帮忙,看到了也帮忙回复一下,别让它沉下去了哦。{:soso_e183:}

希望总有一天,会有人踏着五彩云霞来指导我。{:soso_e163:}

TA的精华主题

TA的得分主题

发表于 2013-1-30 18:09 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 kangatang 于 2013-1-30 19:15 编辑

登陆可以参考这个
http://club.excelhome.net/forum. ... =977635&pid=6690727
但你的情况是要自动精确识别验证码,才有批量查询的意义。

TA的精华主题

TA的得分主题

发表于 2013-1-30 21:58 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
这个图片用ocr识别估计可以

TA的精华主题

TA的得分主题

 楼主| 发表于 2013-1-31 14:45 | 显示全部楼层
kangatang 发表于 2013-1-30 18:09
登陆可以参考这个
http://club.excelhome.net/forum. ... =977635&pid=6690727
但你的情况是要自动精确识 ...

谢谢kangatang 老师!
在众多求助网页批量提取的帖子里,到处都能看到您的回复,解决了很多问题。
您是第一个踏着五彩云霞来帮我的,可我只猜中了开头,没有猜中结果,看来搞定验证码是相当难的。

TA的精华主题

TA的得分主题

发表于 2013-1-31 15:07 | 显示全部楼层
shenghua8 发表于 2013-1-31 14:45
谢谢kangatang 老师!
在众多求助网页批量提取的帖子里,到处都能看到您的回复,解决了很多问题。
您是 ...

哈哈,你太幽默了。。。。可惜结局对我们都不好。
上班的时候能看到这种笑料,,,还是蛮开心的。

TA的精华主题

TA的得分主题

 楼主| 发表于 2013-1-31 15:08 | 显示全部楼层
liucqa 发表于 2013-1-30 21:58
这个图片用ocr识别估计可以

liucqa 老师:
发这个帖子之前,我希望自己能很仔细的阅读您原创的大作:
“网页采集(网页抓取)教程第一课-用XMLHTTP获取数据并用Adodb.Stream转换编码提取信息”
http://club.excelhome.net/thread-893760-1-1.html

您已经注释得相当仔细了,可是,我对编程一窍不通,凭我现在的能力无法读懂您的教程,连入门都很困难。
您在第一课、第二课的小结中都说了:
“在实际的网页采集中,往往我们会碰到比示例的网站复杂几倍乃至几十倍的网页。一个完整的网页采集程序,需要处理以下问题:
    1、如果有必要的话,登录网站。可能需要过验证码(需要获取图片以及做OCR识别)”
您在第四课中还专门指了路:
验证码图片处理欣赏及使用tessdata-OCR进行训练和识别
http://club.excelhome.net/thread-897117-1-1.html

您在另一篇帖子的回复中还说了:
“带验证码的还是用xmlhttp吧,可以和ie共用cookie,这样不用识别验证码”
http://club.excelhome.net/forum.php?mod=redirect&goto=findpost&ptid=892195&pid=6111078

然后在我这篇帖子里说过:
“这个图片用ocr识别估计可以”。

虽然短短的14文字长度,已经让我觉得曙光待现了。

还希望您能帮我设计这个程序。{:soso_e183:}

点评

你去淘宝定制一个识别模块  发表于 2013-1-31 15:37

TA的精华主题

TA的得分主题

 楼主| 发表于 2013-1-31 15:30 | 显示全部楼层
kangatang 发表于 2013-1-31 15:07
哈哈,你太幽默了。。。。可惜结局对我们都不好。
上班的时候能看到这种笑料,,,还是蛮开心的。

祝kangatang 老师天天开心!
快过年了,不能因为我发此帖提出的问题而影响工作,影响心情。
还好我能知道图片文本与字符文本有本质的不同,精确识别验证码那是相当的困难。
只是哪怕有一点点希望,我也期待着……

TA的精华主题

TA的得分主题

 楼主| 发表于 2013-2-19 15:53 | 显示全部楼层
liucqa 发表于 2013-1-30 21:58
这个图片用ocr识别估计可以

liucqa 老师:
能否根据
http://club.excelhome.net/thread-917414-1-1.html
“ [分享] 显示验证码的InputBox”这个帖子,
帮我做一个手工输入验证码的程序?

TA的精华主题

TA的得分主题

 楼主| 发表于 2013-2-20 11:10 | 显示全部楼层
本帖最后由 shenghua8 于 2013-3-7 14:53 编辑
kangatang 发表于 2013-1-30 18:09
登陆可以参考这个
http://club.excelhome.net/forum. ... =977635&pid=6690727
但你的情况是要自动精确识 ...


kangatang 老师:

我已根据
http://club.excelhome.net/thread-917414-1-1.html
这个帖子
能显示验证码了,
可以手工录入验证码,
然后想请您帮我做个在网上批量查询信息的程序。
拜托了!{:soso_e183:}
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-22 04:04 , Processed in 0.047325 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表