pythontesseract中文_如何用python 自己写一个ocr

❶ python3.5能用的图片识别库，可以识别图片上的英文数字和汉字

先看看你的Visual Studio 14 运行库（64位的系统X86/X64的最好都装上）是不是没有装，如果没有安装的话先装上；如果已经安装了的话，修复一下看看。如果还不行的话那就意味着这些库暂时还不支持Python 3.5.2，还得耐心等待或者使用其他能实现所需要功能的库。你可以试试下载EXE文件自己安装，或者下载源码自己编译。
我在我的电脑（XP/Python3.4.4）上用pip安装试了一下，tesseract-ocr安装不上，其他两个没有问题，估计暂时还不支持Python3.X吧。
tesseract-ocr的EXE安装包下载地址：https://sourceforge.net/projects/tesseract-ocr-alt/files/?source=navbar
我没有尝试使用EXE安装包安装楼主可以自己尝试一下。
希望对楼主有帮助。

❷ python pytesseract错误怎么解决

报错：“FileNotFoundError: [WinError 2] 系统找不到指定的文件”－－－win32

相关推荐：《Python基础教程》

解决方法：

下载tesseract-ocr.exe并安装。

安装后将pytesseract.py(文件路径xxxpython34Libsite-packagespytesseract)文件中的参数tesseract_cmd路径，

修改为tesseract-ocr安装的完整路径（如改为r'c:xxxpython34tesseract_orctesseract.exe'）即可。

❸ python有什么好的本地文字识别

你好，如果是英文的话。你可以用下面的库。
pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR开源项目的一个模块，可将图片中的文字转换成文本（主要是英文）
如果要识别中文还需要下载对应的训练集：https://github.com/tesseract-ocr/tessdata
，下载”chi_sim.traineddata”，然后到训练数据集的存放路径。下面是一个例子的代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

❹ python+tesseract怎样才能识别单个数字

Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
tesseract 图片名输出文件名 -l 字库文件 -psm pagesegmode 配置文件
例如：
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用简体中文字库（需要下载中文字库文件，解压后，存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata）
-psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率. 默认为 3
configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名

❺ tesseract 训练字库 python 怎么调用

1、系统环境

OS X 10.7
MacBook Pro(13英寸，2012年初期)
Python 2.7

2、需要软件包
a、需要安装PIL以及pytesseract库

Python-tesseract是一个基于google's Tesseract-OCR的独立封装包；
Python-tesseract功能是识别图片文件中文字，并作为返回参数返回识别结果；
Python-tesseract默认支持tiff、bmp格式图片，只有在安装PIL之后，才能支持jpeg、gif、png等其他图片格式；
Python-tesseract支持python2.5及更高版本；
PIL［Python Imaging Library］来支持更多的图片格式；
b、需要安装google tesseract-ocr

执行命令行 tesseract.exe 1.png output -l eng ，可以识别1.png中文字，并把识别结果输出到output.txt中；
Pytesseract对上述过程进行了二次封装，自动调用tesseract.exe，并读取output.txt文件的内容，作为函数的返回值进行返回。

❻ 如何用python 自己写一个ocr

Tesseract其实对中文的识别很垃圾，下了最新版的编译，从pdf第一页识别，大的特别清晰的可以识别，其他的就惨了，有时候还能识别成错别字。

❼ 这种图片可以用Python自动识别吗

Python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件，为了避免一个个工具的安装，建议使用pythonxy
pytesser是OCR开源项目的一个模块，在Python中导入这个模块即可将图片中的文字转换成文本。pytesser调用了tesseract。当在Python中调用pytesser模块时，pytesser又用tesseract识别图片中的文字。pytesser的使用步骤如下：

首先，安装Python2.7版本，这个版本比较稳定，建议使用这个版本。
其次，安装pythoncv。
然后，安装PIL工具，pytesser的使用需要PIL库的支持。
接着下载pytesser
最后，将pytesser解压，这个是免安装的，可以将解压后的文件cut到Python安装目录的Lib\site-packages下直接使用，比如我的安装目录是：C:\Python27\Lib\site-packages，同时把这个目录添加到环境变量之中。
完成以上步骤之后，就可以编写图片文本识别的Python脚本了。参考脚本如下：
from pytesser import *
import ImageEnhance
image = Image.open('D:\\workspace\\python\\5.png')
#使用ImageEnhance可以增强图片的识别率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)

tesseract是谷歌的一个对图片进行识别的开源框架，免费使用，现在已经支持中文，而且识别率非常高，这里简要来个helloworld级别的认识
下载之后进行安装，不再演示。
在tesseract目录下，有个tesseract.exe文件，主要调用这个执行文件，用cmd运行到这个目录下，在这个目录下同时放置一张需要识别的图片，这里是123.jpg
然后运行:tesseract 123.jpg result
会把123.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好
然后找到tessdata目录，把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了

❽ 如何利用Python对PDF文件做OCR识别

1.安装tesseract
在不同的系统中安装tesseract非常容易。为了简便，我们以Ubuntu为例。在Ubuntu中你仅仅需要运行以下命令:
这将会安装支持3种不同语言的tesseract。
2.安装PyOCR
现在我们还需要安装tesseract的Python接口。幸运的是，有许多出色的Python接口。我们采用最新的一个：
3.安装Wand和PIL
在我们开始之前，还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。我们需要使用它来将PDF文件转换成图像：
我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。
4.热身
让我们开始我们的脚本吧。首先，我们需要导入一些重要的库：
注意：我将从PIL导入的Image模块改名为PI了，因为如果不这样做的话，它将和wand.image模块发生重名冲突。
5.开始
现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使用的语言：
我们使用tool.get_available_languages()里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。
接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。
下一步，我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧！
注意：将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。
wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到req_image序列中去。

导航:首页 > 编程语言 > pythontesseract中文

pythontesseract中文

与pythontesseract中文相关的资料