导航:首页 > 源码编译 > 微软ocr源码

微软ocr源码

发布时间:2022-07-03 20:27:37

❶ 在Microsoft Office Document Imaging中使用OCR识别文本问题

你以前用过imaging识别过没有,如果以前都成功了,现在不成功,说明是软件产生了问题。
1、用一个相对简单的只有一两行字的tif图片试一下。如果有问题,那么确定是office
imaging有问题了。
2、如果小图片可以识别,那么说明是你的图片文件有问题,注意一定转换成tif图片格式文件
3、如果是软件有问题,在添加删除程序里面
点击office
点击修复,修复一下office之后再试试
4、如果修复后依然出现这种问题,可以考虑重装office
软件,或者使用其他的ocr识别软件

❷ 微软的office库 OCR如何实现识别中英文混合

使用WORD自带的虚拟打印机Microsoft
Office
Document
Image
Writer将图片打印后再用工具——使用OCR识别就能将图片中的文字识别,不管是中文还是英文。
不过使用该功能的前提是WORD要安装完整,精简版的OFFICE可能是不带虚拟打印机这一功能的,可以下载一个完整版的选择完整安装,完整版的有500多M

❸ 关于ocr扫描的问题。目的是能实验扫描出数字即可。(需要源码

在国际领域来讲,纯数字的识别技术已经是极为简单的识别应用。如果基于国内来讲涵盖的中文复杂性,这个有点难度。目前我考察过一些公司,汉王 厦门图睿 名片王等一些,汉王的人脸考勤机推广还行,厦门图睿身份证 银行卡识别技术很好,名片王自然名片领域搞的很优秀。希望这些信息能够给你带来帮助!

❹ OCR文字识别软件哪个易用可网上下载

OCR文字识别软件 Mini Ocr

xdowns.com/view_soft/3/7/OCRwenzishibieruanjian Mini Ocr.html



本软件是飞涛软件工作室开发的一款免费Ocr软件,主要用于识别图像文件之中,出现
的汉字显示字体。Ocr的中文含意是光学字符识别。
为什么叫Mini呢?因为现有的识别汉字的商业Ocr软件,动辄二三十兆,而本软件解
压后,也不过三兆多,身材比较纤小,再加上本软件主要用于识别字体比较小的汉字,所
以叫Mini,中文的发音是“迷你”,中文含义是超小型。

既然有了商业Ocr软件,为什么还要开发这个软件?

不同于商业Ocr软件,本软件是免费的,可以自由使用。第二个不同之处,本软件的
识别对象是屏幕出现的“显示汉字”,而不是针对扫描仪扫出来的“打印汉字”。二者有什
么不同呢?最重要的一点: 扫描出来的打印汉字的高度和宽度一般都在30多个像素点之
上,这是我用画图软件,打开某个商业Ocr的samples\sample1.tif,然后一点一点数出
来的。从文件名和目录名的中文含意可以看出,这个点数应该是一个典型值。那么,如果
用商业Ocr识别屏幕上出现的小五号字,汉字的高度是12个像素点,会出现什么情况呢?
测试方法:用记事本随便写几行汉字,设置字体为小五号字。这大概是看着还算舒服
的最小号的汉字字体了(高度是12个像素点),如果再小,字体就很难看了。然后,按拷
屏键PrtSc,把屏幕的图像拷贝、粘贴到画图软件中,修剪尺寸后,保存为bmp的格式。
然后,我找了两个国内最着名的Ocr软件进行测试,结果让人大吃一惊,识别率几乎为零。
把图像放大两倍,再测试,结果仍然很不理想,大概也只有百分之二三十的样子。

开发Mini Ocr软件的由来

我在开发护花使者反黄图像识别软件的时候,遇到有些图像里,嵌有某些文字,如果能
把文字识别出来,图像的含义就很容易让计算机理解了。预算有限,我连扫描仪都舍不得
买,就更别想买商业Ocr的开发包了,大概几十万,或者更多,或者别人压根就不卖。况且
它们的识别率对小字体几乎为零,不符合我的要求。看来,只好自力更生,重新写一个了。

开发Mini Ocr的历程

经过三个多月的努力,终于诞生了这款Mini Ocr 软件。第1个月做出了汉字识别的
核心模块,第2个月做出了文章段落切分的算法,并加入了对英文,数字,标点的支持,
第三个月继续调整英汉混排和汉字切分的算法,并用MFC 做了一个界面。

Mini Ocr的软件架构

为了让更多的人能使用到这个软件,我在windows系统下,采用VC进行编程,界面当
然只好用MFC写了。软件架构是一个SDI框架下的多窗口切分界面,左上角的窗口是一个
CFormView,用来显示常用的按钮;左下角是一个CEditView,用来显示帮助信息;右上角
是一个CView,用来显示要识别的图像;右下角是一个CEditView,用来存放识别出来的文
字。识别部分采用了工作者线程,以避免显示界面的主线程僵掉。识别部分是整个软件的
核心,与操作系统无关,可以单独摘出来放在dos窗口里跑,也可以移植到Linux系统中跑。

汉字识别软件的难点所在:

英文识别有一些开放源码的软件,我看过的软件,主要采取两种识别方法:基于规则
的方法,和采用神经网络方法。而这两种方法,在识别汉字时,都不宜采用。因为汉字数
目众多,最常用的国标2312的一级汉字就有3755个。如果借用基于规则的方法,需要对
三千多个汉字,逐一人工写出分类规则,工作量太大,我一个人无法完成;如果采用神经
网络的方法,这么多汉字,我不敢想象,需要多少层网络和神经节点呀!如果采用网格法,
抗位移的效果太差;而采用不变矩法,识别人和入,土和士,相似度又难于控制。除此之
外,汉字切分也是一大难题。英文宽度大概只有汉字一半,标点符号大概只有汉字三分之
一宽,数字大概只有四分之一的宽度。而汉字本身又有二分字,和三分字。某些字,如“啊”,
字体小时可能是独体字,字体大些,变为二分字,字体再大,又变为三分字。加上汉字与
汉字之间的粘连、汉字与英文的混排,英文与英文的粘连,造成汉字切分模块的算法,甚
至比汉字识别模块的算法还要复杂得多。为了克服这些难点,并加快识别速度,我在算法
设计时,采用了一些优化和简化的策略。经过实践检验,证明行之有效。

Mini Ocr进行汉字识别的策略:
1) 采用复合特征的分类方法。
2) 字符集选择3755个一级汉字。
3) 字体选择最常用的宋体。
4) 字号选择从小五号到一号汉字,主要针对20个点之内的小字体。
5) 英汉混排时,汉语优先。
6) 汉字粘连时,进行动态优化切分。

展望与下一步的开发计划:
1) 重新优化英文识别的算法;
2) 对英文粘连的切分算法进行调整;
3) 移植进入Linux;

选择Ocr软件的建议:

如果您选择Ocr软件,目的是用来识别扫描仪出来打印字体,推荐还是选用知名的商业Ocr。
如果您要识别屏幕上显示的汉字,Mini Ocr是一个比较不错的选择。真诚地希望您在使用
中,能喜欢上它

❺ 求 Microsoft.office2003中的OCR组件

Microsoft Office 2003企业版官方版


包含Word,Excel,Powerpoint,Access、OneNote、Outlook、


Publisher、InfoPath、Project、Visio、Frontpage这所有组件


点开下载解压后双击setup.exe即可安装!


内有密钥!无需激活!无病毒无木马!


不弹广告!无流氓插件!众多网友已成功下载安装使用!


一个名为“SN”文档里面有密钥,如果没找到,网上随便找一个就行!


满意请采纳!


❻ 微软OCR哪种设置识别数字最好

ocr文字识别软件,可以根据图片识别文字。但是,必须要提醒你,图形识别已经属于一定的人工智能范畴,目前的软件技术还没达到应对各种状况的程度,所以前期的工作你要做好,比如图片文字越清晰却容易识别,图片上颜色越少越容易识别,图片文字与背景色对比越明显越容易识别,图片文字书写越规范越容易识别,英文和数字比中文更容易识别等等。可以使用ABBYY FineReader这款老牌OCR识别软件,个人认为识别率蛮高的,提供软件下载网页链接你试下,看看能不能行

❼ c#如何调用微软的ocr进行图像识别

// 引用 Interop.MODI.dll
// 识别率不是很高
private string OcrFunc(string imgfileName) // 参数为包含文本的图片文件名
{
var langs = MODI.MiLANGUAGES.miLANG_ENGLISH;
// MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED; 中文含英文
// MODI.MiLANGUAGES.miLANG_JAPANESE; 日文含英文

var doc = new MODI.Document();
var image = default(MODI.Image);
var layout = default(MODI.Layout);

try
{
doc.Create(imgfileName);
doc.OCR(langs, true, true);
var sb = new StringBuilder();

for (int i = 0; i < doc.Images.Count; i++)
{
image = (MODI.Image)doc.Images[i];
layout = image.Layout;
sb.AppendLine(string.Format("{0}, {1}", i, layout.Text));
}
doc.Close(false);
return sb.ToString();
}
catch (System.Exception ex)
{
MessageBox.Show(ex.Message);
return string.Empty;
}
finally
{
layout = null;
image = null;
doc = null;
}
}

❽ Microsoft Office Document Imaging ocr组件

给个邮箱,发一个含有ocr组件的office2003安装包给你。

❾ 如何利用微软 Office Word 进行文字辨识﹝OCR﹞

3.点选[下一步]。 4.预设存成tif格式档案。 以上就是要将图片转档成 tif 或 tiff 格式,若使用扫描器扫描文件后,可将图片存成该类格式,分辨率越高,文字辨识率越正确。 5.在刚刚存档的 tif 档,鼠标右键点击,使用 Microsoft Office Document Imaging 开启。 6.开启后,点击[工具] > [使用 OCR 辨识文字]。 7.辨识完成后,在左边的预览图右下角就会出现已辨识的图样,,点击[工具] > [传送文字到 Word]。 8.以下是辨识的结果,接下来要做的就是修改未辨识好的文字修改。 虽然没有完全辨识出来,但其结果是在可接受的范围,至少不用从头打字打到尾。

阅读全文

与微软ocr源码相关的资料

热点内容
经典趋势交易策略源码 浏览:16
樱校解压声音大全 浏览:763
程序员小周 浏览:321
怎样做小鸡解压神器 浏览:742
那么发动机的压缩比会减小 浏览:471
第一号命令 浏览:655
朕的命令 浏览:35
手机常见应用文件夹名字 浏览:543
程序员和健美教练 浏览:14
如何成为服务器商 浏览:655
我的世界服务器如何该密码 浏览:442
房地产评估系统源码 浏览:34
程序员变老了图片 浏览:607
找冷库车要什么app 浏览:333
如何设置来电自动回复安卓 浏览:497
cbm替换文件命令 浏览:359
安卓渠道服什么时候来樱花 浏览:595
程序员不干活的视频 浏览:126
美篇app在手机哪里找到了 浏览:255
bec中级pdf 浏览:755