pythontesseract中文_如何用python 自己寫一個ocr

❶ python3.5能用的圖片識別庫，可以識別圖片上的英文數字和漢字

先看看你的Visual Studio 14 運行庫（64位的系統X86/X64的最好都裝上）是不是沒有裝，如果沒有安裝的話先裝上；如果已經安裝了的話，修復一下看看。如果還不行的話那就意味著這些庫暫時還不支持Python 3.5.2，還得耐心等待或者使用其他能實現所需要功能的庫。你可以試試下載EXE文件自己安裝，或者下載源碼自己編譯。
我在我的電腦（XP/Python3.4.4）上用pip安裝試了一下，tesseract-ocr安裝不上，其他兩個沒有問題，估計暫時還不支持Python3.X吧。
tesseract-ocr的EXE安裝包下載地址：https://sourceforge.net/projects/tesseract-ocr-alt/files/?source=navbar
我沒有嘗試使用EXE安裝包安裝樓主可以自己嘗試一下。
希望對樓主有幫助。

❷ python pytesseract錯誤怎麼解決

報錯：「FileNotFoundError: [WinError 2] 系統找不到指定的文件」－－－win32

相關推薦：《Python基礎教程》

解決方法：

下載tesseract-ocr.exe並安裝。

安裝後將pytesseract.py(文件路徑xxxpython34Libsite-packagespytesseract)文件中的參數tesseract_cmd路徑，

修改為tesseract-ocr安裝的完整路徑（如改為r'c:xxxpython34tesseract_orctesseract.exe'）即可。

❸ python有什麼好的本地文字識別

你好，如果是英文的話。你可以用下面的庫。
pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR開源項目的一個模塊，可將圖片中的文字轉換成文本（主要是英文）
如果要識別中文還需要下載對應的訓練集：https://github.com/tesseract-ocr/tessdata
，下載」chi_sim.traineddata」，然後到訓練數據集的存放路徑。下面是一個例子的代碼。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

❹ python+tesseract怎樣才能識別單個數字

Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
tesseract 圖片名輸出文件名 -l 字型檔文件 -psm pagesegmode 配置文件
例如：
tesseract code.jpg result -l chi_sim -psm 7 nobatch
-l chi_sim 表示用簡體中文字型檔（需要下載中文字型檔文件，解壓後，存放到tessdata目錄下去,字型檔文件擴展名為 .raineddata 簡體中文字型檔文件名為: chi_sim.traineddata）
-psm 7 表示告訴tesseract code.jpg圖片是一行文本這個參數可以減少識別錯誤率. 默認為 3
configfile 參數值為tessdata\configs 和 tessdata\tessconfigs 目錄下的文件名

❺ tesseract 訓練字型檔 python 怎麼調用

1、系統環境

OS X 10.7
MacBook Pro(13英寸，2012年初期)
Python 2.7

2、需要軟體包
a、需要安裝PIL以及pytesseract庫

Python-tesseract是一個基於google's Tesseract-OCR的獨立封裝包；
Python-tesseract功能是識別圖片文件中文字，並作為返回參數返回識別結果；
Python-tesseract默認支持tiff、bmp格式圖片，只有在安裝PIL之後，才能支持jpeg、gif、png等其他圖片格式；
Python-tesseract支持python2.5及更高版本；
PIL［Python Imaging Library］來支持更多的圖片格式；
b、需要安裝google tesseract-ocr

執行命令行 tesseract.exe 1.png output -l eng ，可以識別1.png中文字，並把識別結果輸出到output.txt中；
Pytesseract對上述過程進行了二次封裝，自動調用tesseract.exe，並讀取output.txt文件的內容，作為函數的返回值進行返回。

❻ 如何用python 自己寫一個ocr

Tesseract其實對中文的識別很垃圾，下了最新版的編譯，從pdf第一頁識別，大的特別清晰的可以識別，其他的就慘了，有時候還能識別成錯別字。

❼ 這種圖片可以用Python自動識別嗎

Python圖片文本識別使用的工具是PIL和pytesser。因為他們使用到很多的python庫文件，為了避免一個個工具的安裝，建議使用pythonxy
pytesser是OCR開源項目的一個模塊，在Python中導入這個模塊即可將圖片中的文字轉換成文本。pytesser調用了tesseract。當在Python中調用pytesser模塊時，pytesser又用tesseract識別圖片中的文字。pytesser的使用步驟如下：

首先，安裝Python2.7版本，這個版本比較穩定，建議使用這個版本。
其次，安裝pythoncv。
然後，安裝PIL工具，pytesser的使用需要PIL庫的支持。
接著下載pytesser
最後，將pytesser解壓，這個是免安裝的，可以將解壓後的文件cut到Python安裝目錄的Lib\site-packages下直接使用，比如我的安裝目錄是：C:\Python27\Lib\site-packages，同時把這個目錄添加到環境變數之中。
完成以上步驟之後，就可以編寫圖片文本識別的Python腳本了。參考腳本如下：
from pytesser import *
import ImageEnhance
image = Image.open('D:\\workspace\\python\\5.png')
#使用ImageEnhance可以增強圖片的識別率
enhancer = ImageEnhance.Contrast(image)
image_enhancer = enhancer.enhance(4)
print image_to_string(image_enhancer)

tesseract是谷歌的一個對圖片進行識別的開源框架，免費使用，現在已經支持中文，而且識別率非常高，這里簡要來個helloworld級別的認識
下載之後進行安裝，不再演示。
在tesseract目錄下，有個tesseract.exe文件，主要調用這個執行文件，用cmd運行到這個目錄下，在這個目錄下同時放置一張需要識別的圖片，這里是123.jpg
然後運行:tesseract 123.jpg result
會把123.jpg自動識別並轉換為txt文件到result.txt
但是此時中文識別不好
然後找到tessdata目錄，把eng.traineddata替換為chi_sim.traineddata,並且把chi_sim.traineddata重命名為eng.traineddata
ok,現在中文識別基本達到90%以上了

❽ 如何利用Python對PDF文件做OCR識別

1.安裝tesseract
在不同的系統中安裝tesseract非常容易。為了簡便，我們以Ubuntu為例。在Ubuntu中你僅僅需要運行以下命令:
這將會安裝支持3種不同語言的tesseract。
2.安裝PyOCR
現在我們還需要安裝tesseract的Python介面。幸運的是，有許多出色的Python介面。我們採用最新的一個：
3.安裝Wand和PIL
在我們開始之前，還需要另外安裝兩個依賴包。一個是Wand。它是Imagemagick的Python介面。我們需要使用它來將PDF文件轉換成圖像：
我們也需要PIL因為PyOCR需要使用它。你可以查看官方文檔以確定如何將PIL安裝到你的操作系統中。
4.熱身
讓我們開始我們的腳本吧。首先，我們需要導入一些重要的庫：
注意：我將從PIL導入的Image模塊改名為PI了，因為如果不這樣做的話，它將和wand.image模塊發生重名沖突。
5.開始
現在我們需要獲得OCR庫（在本例中，即tesseract）的句柄以及我們在PyOCR中將使用的語言：
我們使用tool.get_available_languages()里的第二種語言，因為之前我曾嘗試過，第二種語言就是英語。
接著，我們需要建立兩個列表，用於存儲我們的圖像和最終的文本。
下一步，我們需要採用wand將一個PDF文件轉成jpeg文件。讓我們試一試吧！
注意：將PDF_FILE_NAME替換成當前路徑下的一個可用的PDF文件名。
wand已經將PDF中所有的獨立頁面都轉成了獨立的二進制圖像對象。我們可以遍歷這個大對象，並把它們加入到req_image序列中去。

導航:首頁 > 編程語言 > pythontesseract中文

pythontesseract中文

與pythontesseract中文相關的資料