ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: liucqa

[分享] 【指路贴】网页采集教程第四课-验证码图片处理欣赏及使用tessdata-OCR进行训练和识别

  [复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-24 12:36 | 显示全部楼层
kangatang 发表于 2012-7-24 09:30
学习。
越来越 曲高和寡 了

这么火热的课题,怎么能算曲高呢?顶多在EH上有点"和寡"罢了

用c和dephi写的验证码识别文章早已满天飞了,不过用vba来做,俺这篇文章算是少有的了。

TA的精华主题

TA的得分主题

发表于 2012-7-24 12:48 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
liucqa 发表于 2012-7-24 12:36
这么火热的课题,怎么能算曲高呢?顶多在EH上有点"和寡"罢了

用c和dephi写的验证码识别文章早已满天飞 ...

在EH上有点"和寡"

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-24 18:05 | 显示全部楼层
有没有大神来光临本帖指导呀

TA的精华主题

TA的得分主题

发表于 2012-7-25 07:27 | 显示全部楼层

总体来说,OCR或者OCR插件是很优秀的,毕竟那是专业人员弄出来的东西,如果不好,那叫没脸见人。

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-25 10:30 | 显示全部楼层
蓝天630902 发表于 2012-7-25 07:27
总体来说,OCR或者OCR插件是很优秀的,毕竟那是专业人员弄出来的东西,如果不好,那叫没脸见人。

使用OCR软件与自己写代码相比,最大的好处是免去了做字符分隔和建立识别字库的麻烦。
OCR软件强大的自训练功能,可以使开发变的简单而省力。

但是对一些需要特殊处理的变形、粘连比较严重的图片,OCR就无能为力了。这类情况只有自己编程处理字符分割和建立字库。不过识别率貌似不会太高,能有10%~20%就很不错了。

TA的精华主题

TA的得分主题

发表于 2012-7-25 10:36 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
liucqa 发表于 2012-7-25 10:30
使用OCR软件与自己写代码相比,最大的好处是免去了做字符分隔和建立识别字库的麻烦。
OCR软件强大的自训 ...

就某个具体问题来说,自己写代码要比OCR要靠谱些,但就是累人。

写有写的好处,到时候有可能不会患老年痴呆。

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-25 10:43 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
蓝天630902 发表于 2012-7-25 10:36
就某个具体问题来说,自己写代码要比OCR要靠谱些,但就是累人。

写有写的好处,到时候有可能不会患 ...

呵呵,其实能把图像预处理做好,就不会得老年痴呆了。

目前图像识别的全部热点都在预处理上,而OCR只不过是预处理之后的结果罢了

你可以研究一下OTSU阈值、边缘识别、骨架之类的算法,很锻炼大脑的

TA的精华主题

TA的得分主题

发表于 2012-7-25 13:15 | 显示全部楼层
liucqa 发表于 2012-7-24 02:03
验证码识别是一柄双刃剑,掌握了这个功能,可以用来降低我们的工作量,也可以用来做不和谐的行为。

还是看看代码好点,让俺 用用。发我邮箱也行。335081548@qq.com 谢谢

正在学习中

TA的精华主题

TA的得分主题

发表于 2012-7-25 14:24 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
  去边框-----------清空1~2个像素即可(填入255)
    反转颜色--------要处理RGB三色
    中值滤波--------将这4~8个点的像素值换成排序在中间的值。
    加权灰度--------心理学的灰度公式 Gray= 0.299*R + 0.587*G + 0.114*B         
                             整数运算的变种公式 Gray = (R*30 + G*59 + B*11 + 50) / 100
                            Adobe RGB (1998) [gamma=2.20] Gray = (R^2.2 * 0.2973 + G^2.2 * 0.6274 + B^2.2 * 0.0753)^(1/2.2) 速度慢但是效果不错
    二值化-----------根据阈值确定像素值是0(黑),还是255(白)
    去噪点-----------最简单的方法是先后判断9、25个像素范围内白色像素的占比,如果超过60%~80%即可视为噪点。

这几个过程处理就是使图像的颜色种类逐步变少。
请教大师加权灰度对图像颜色有什么影响,是不是把彩色图像变成灰色,就像彩色电视机变成黑白电视差不多意思

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-7-25 14:47 | 显示全部楼层
星剑所指 发表于 2012-7-25 14:24
这几个过程处理就是使图像的颜色种类逐步变少。
请教大师加权灰度对图像颜色有什么影响,是不是把彩色图 ...

变灰度之后,数据量会变小
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-3-29 23:38 , Processed in 0.050507 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表