|
本帖最后由 hhmxxx 于 2012-7-18 20:51 编辑
惠普实验室曾经有一个Ocr引擎,支持中文的识别,这个库叫tesseract-ocr,最新版本是3.01,库的源码在这里下载:http://code.google.com/p/tesseract-ocr/downloads/list
我把这个库封装成了一个进程外Com服务器,可以在Excel或者Word或者IE或者其他支持Com技术的程序中调用(32位或者64位的Excel,Word都可以调用)。
首先下载我的封装库,安装MyOcrServer-v100.exe,
安装完成后可以这样在Excel中使用
Dim FMyFuns As Object
Dim MyStr As String
Set FMyFuns = CreateObject("MyOcrServer.MyOcrServerCom")
MyStr = FMyFuns.TsOcr("E:\test.jpg", "3","3","0","chi_sim")
MsgBox MyStr
Set FMyFuns = Nothing
参数说明:第一个为文件名
第二个为引擎模式EngineMode = (emTesseractOnly, emCubeOnly, emCombined, emDefault);第一个为0,依此类推
第三个为PageSegmentation = (psOSDOnly, psAutoOSD, psAutoOnly, psAuto, psSingleColumn, psSingleVerticalBlock, psSingleBlock, psSingleLine, psSingleWord, psCircleWord, psSingleChar);
第四个为PixelFormat = (piAuto, pi8bit, pi24bit, pi32bit);
第五个为识别使用的语言模块,比如英文"eng",中文"chi_sim"
有兴趣的可以去试试。
封装库下载地址(谢谢liucqa2测试和上传):MyOcrServer-v100.exe
|
评分
-
9
查看全部评分
-
|