python中文文字識別_python怎麼判斷中文字元編碼

㈠ python開發文字點選驗證碼，有什麼推薦的方法

文字點選驗證碼（Click Captcha）是一種常見的驗證碼形式，納雹通常由若干個字元或單片語成，要求用戶點擊其中指定的字元或單詞，以驗證用戶身份。

在Python開發中實現文字點選驗證碼，一種常用的方法是使用圖像處理庫和機器學習庫，以下是一些常用的庫和方法：

PIL庫：Python Imaging Library（PIL）是一個Python圖像處理庫，提供了豐富的圖像處理功能，包括圖像讀寫、縮放、旋轉、裁剪、濾波等。可以使用PIL庫生成包含隨機字元的驗證碼圖片，並將其保存為本地文件。
OpenCV庫：OpenCV是一個計算機視覺庫，提供了大量的圖像處理和計算機視覺演算法，包括圖像讀寫、濾波、邊緣檢測、特徵提取等。可以使用OpenCV庫對驗證碼圖片進行預處理，提取出驗證碼中的字元或單詞，以便後續的識別。
PyTesseract庫伍和：PyTesseract是一個Python的OCR庫，基於Google的Tesseract-OCR引擎，可以對圖像中的文字進行識別。可以使用PyTesseract庫對驗證碼圖片中的字元或單詞進行識別和分類。
KNN演算法：KNN是一種常用的機器學習演算法，可以用於對驗證腔茄盯碼圖片中的字元或單詞進行分類。可以使用KNN演算法對預處理後的驗證碼圖片進行特徵提取和分類，以識別出驗證碼中的正確字元或單詞。

綜合使用以上方法，可以實現一個較為穩定和准確的文字點選驗證碼。具體實現細節需要根據具體情況進行調整和優化。

㈡ python怎麼判斷中文字元編碼

#!/usr/bin/env python
# -*- coding:GBK -*-

"""漢字處理的工具:
判斷unicode是否是漢字，數字，英文，或者其他字元。
全形符號轉半形符號。"""

__author__="internetsweeper <[email protected]>"
__date__="2007-08-04"

def is_chinese(uchar):
"""判斷一個unicode是否是漢字"""
if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
return True
else:
return False

def is_number(uchar):
"""判斷一個unicode是否是數字"""
if uchar >= u'\u0030' and uchar<=u'\u0039':
return True
else:
return False

def is_alphabet(uchar):
"""判斷一個unicode是否是英文字母"""
if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):
return True
else:
return False

def is_other(uchar):
"""判斷是否非漢字，數字和英文字元"""
if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
return True
else:
return False

def B2Q(uchar):
"""半形轉全形"""
inside_code=ord(uchar)
if inside_code<0x0020 or inside_code>0x7e: #不是半形字元就返回原來的字元
return uchar
if inside_code==0x0020: #除了空格其他的全形半形的公式為:半形=全形-0xfee0
inside_code=0x3000
else:
inside_code+=0xfee0
return unichr(inside_code)

def Q2B(uchar):
"""全形轉半形"""
inside_code=ord(uchar)
if inside_code==0x3000:
inside_code=0x0020
else:
inside_code-=0xfee0
if inside_code<0x0020 or inside_code>0x7e: #轉完之後不是半形字元返回原來的字元
return uchar
return unichr(inside_code)

def stringQ2B(ustring):
"""把字元串全形轉半形"""
return "".join([Q2B(uchar) for uchar in ustring])

def uniform(ustring):
"""格式化字元串，完成全形轉半形，大寫轉小寫的工作"""
return stringQ2B(ustring).lower()

def string2List(ustring):
"""將ustring按照中文，字母，數字分開"""
retList=[]
utmp=[]
for uchar in ustring:
if is_other(uchar):
if len(utmp)==0:
continue
else:
retList.append("".join(utmp))
utmp=[]
else:
utmp.append(uchar)
if len(utmp)!=0:
retList.append("".join(utmp))
return retList

if __name__=="__main__":
#test Q2B and B2Q
for i in range(0x0020,0x007F):
print Q2B(B2Q(unichr(i))),B2Q(unichr(i))

#test uniform
ustring=u'中國人名a高頻A'
ustring=uniform(ustring)
ret=string2List(ustring)
print ret

以上轉自http://hi..com/fenghua1893/item/d1a71d5ac47ffdcfd3e10cd1

這個問題是做 MkIV 預處理程序時搞定的，就是把一個混合了中英文混合字串分離為英文與中文的子字串，譬如，將」我的 English 學的不好「分離為「我的"、" English 」與 "學的不好" 三個子字串。
1. 中英文混合字串的統一編碼表示中英文混合字串處理最省力的辦法就是把它們的編碼都轉成 Unicode，讓一個漢字與一個英文字母的內存位寬都是相等的。這個工作用 Python 來做，比較合適，因為 Python 內碼採用的是 Unicode，並且為了支持 Unicode 字串的操作，Python 做了一個 Unicode 內建模塊，把 string 對象的全部方法重新實現了一遍，另外提供了 Codecs 對象，解決各種編碼類型的字元串解碼與編碼問題。
譬如下面的 Python 代碼，可實現 UTF-8 編碼的中英文混合字串向 Unicode 編碼的轉換：# -*-
coding:utf-8 -*-
a = "我的 English 學的不好"
print type(a),len (a), a
b = unicode (a, "utf-8")
print type(b), len (b), b字元串 a 是 utf-8 編碼，使用 python 的內建對象 unicode 可將其轉換為 Unicode 編碼的字元串 b。上述代碼執行後的輸出結果如下所示，比較字串 a 與字串 b 的長度，顯然 len (b) 的輸出結果是合理的。<type 'str'> 27 我的 English 學的不好
<type 'unicode'> 15 我的 English 學的不好要注意的一個問題是 Unicode 雖然號稱是「統一碼」，不過也是存在著兩種形式，即：
UCS-2：為 16 位碼，具有 2^16 = 65536 個碼位； UCS-4：為 32 位碼，目前的規定是其首位元組的首位為 0，因此具有 2^31 = 2147483648 個碼位，不過現在的只使用了 0x00000000 － 0x0010FFFF 之間的碼位，共 1114112 個。
使用Python sys 模塊提供的一個變數 maxunicode 的值可以判斷當前 Python 所使用的 Unicode 類型是 UCS-2 的還是 UCS-4 的。import sys
print sys.maxunicode若 sys.maxunicode 的值為 1114111，即為 UCS-4；若為 65535，則為 UCS-2。

2. 中英文混合字串的分離一旦中英文字串的編碼獲得統一，那麼對它們進行分裂就是很簡單的事情了。首先要為中文字串與英文字串分別准備一個收集器，使用兩個空的字串對象即可，譬如 zh_gather 與 en_gather；然後要准備一個列表對象，負責按分離次序存儲 zh_gather 與 en_gather 的值。下面這個 Python 函數接受一個中英文混合的 Unicode 字串，並返回存儲中英文子字串的列表。def split_zh_en (zh_en_str):

zh_en_group = []
zh_gather = ""
en_gather = ""
zh_status = False

for c in zh_en_str:
if not zh_status and is_zh (c):
zh_status = True
if en_gather != "":
zh_en_group.append ([mark["en"],en_gather])
en_gather = ""
elif not is_zh (c) and zh_status:
zh_status = False
if zh_gather != "":
zh_en_group.append ([mark["zh"], zh_gather])
if zh_status:
zh_gather += c
else:
en_gather += c
zh_gather = ""

if en_gather != "":
zh_en_group.append ([mark["en"],en_gather])
elif zh_gather != "":
zh_en_group.append ([mark["zh"],zh_gather])

return zh_en_group上述代碼所實現的功能細節是：對中英文混合字串 zh_en_str 的遍歷過程中進行逐字識別，若當前字元為中文，則將其添加到 zh_gather 中；若當前字元為英文，則將其添加到 en_gather 中。zh_status 表示中英文字元的切換狀態，當 zh_status 的值發生突變時，就將所收集的中文子字串或英文子字串添加到 zh_en_group 中去。
判斷字串 zh_en_str 中是否包含中文字元的條件語句中出現了一個 is_zh () 函數，它的實現如下：def is_zh (c):
x = ord (c)
# Punct & Radicals
if x >= 0x2e80 and x <= 0x33ff:
return True

# Fullwidth Latin Characters
elif x >= 0xff00 and x <= 0xffef:
return True

# CJK Unified Ideographs &
# CJK Unified Ideographs Extension A
elif x >= 0x4e00 and x <= 0x9fbb:
return True
# CJK Compatibility Ideographs
elif x >= 0xf900 and x <= 0xfad9:
return True

# CJK Unified Ideographs Extension B
elif x >= 0x20000 and x <= 0x2a6d6:
return True

# CJK Compatibility Supplement
elif x >= 0x2f800 and x <= 0x2fa1d:
return True

else:
return False這段代碼來自 jjgod 寫的 XeTeX 預處理程序。
對於分離出來的中文子字串與英文子字串，為了使用方便，在將它們存入 zh_en_group 列表時，我對它們分別做了標記，即 mark["zh"] 與 mark["en"]。mark 是一個 dict 對象，其定義如下：mark = {"en":1, "zh":2}如果要對 zh_en_group 中的英文字串或中文字串進行處理時，標記的意義在於快速判定字串是中文的，還是英文的，譬如：for str in zh_en_group:
if str[0] = mark["en"]:
do somthing
else:
do somthing

㈢使用python對txt文本進行分析和提取

實現的方法和詳細的操作步驟如下：

1、首先，打開計算機上的pycharm編輯器，如下圖所示，然後進入下一步。

㈣ python2.7 ocr 文本識別怎麼弄的啊

解壓即可。比如你解壓到了E:\\python\\mymodele\\pytesser
在程序開頭加上：
import sys
sys.path.append("E:\\python\\mymodele\\pytesser") ，然後import pytesser時就不會報錯了。
image_to_string() 這個方法是pytesser里的。你得from pytesser import * 才能用它。

㈤ python有什麼好的本地文字識別

你好，如果是英文的話。你可以用下面的庫。
pytesser，OCR in Python using the Tesseract engine from Google。是谷歌OCR開源項目的一個模塊，可將圖片中的文字轉換成文本（主要是英文）
如果要識別中文還需要下載對應的訓練集：https://github.com/tesseract-ocr/tessdata
，下載」chi_sim.traineddata」，然後到訓練數據集的存放路徑。下面是一個例子的代碼。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)

㈥如何使用python來獲取pdf文件里的文字，最好是不能亂碼

提取pdf文字可以推薦一個工具

第一種文字型PDF比較簡單，可以採用格式轉換的方式直接轉換PDF文件為文本。打開PDF文字識別軟體，執行「文件」-「打開圖像...」導入PDF文件，然後執行「輸出」-「PDF文件轉換為TXT文件」第二種圖像型PDF，有的PDF都是掃描圖片，這個就不能復制文字了，可以採用OCR識別的方式，將PDF文件轉換為可編輯文檔。這也是本文主要講的pdf文字識別方法。還是打開PDF文字提取軟體，執行「文件」-「打開圖像...」導入PDF文件。然後執行「識別」-「開始識別...」。

㈦ python怎麼識別圖片文字

可以調用opencv來進行識別

導航:首頁 > 編程語言 > python中文文字識別

python中文文字識別

與python中文文字識別相關的資料