python怎么调用knn_python 机器学习用什么库

Ⅰ python 机器学习用什么库

（1）scikit-learn
Python下做机器学习，首推scikit-learn。该项目文档齐全、讲解清晰，功能齐备，使用方便，而且社区活跃。

（2）Orange
机器学习是其的功能之一，主要还是侧重数据挖掘，可以用可视化语言或Python进行操作，拥有机器学习组件，还具有生物信息学以及文本挖掘的插件。

（3）shogun
shogun，非日本的老外弄的一个机器学习库，还专门配了一个我们能看懂的日文名“将军”（是日本幕府时代的将军）。文档齐全，开发活跃，更新快，运算速度也很快。主攻大尺度的核函数，尤其是大尺度核函数下的SVM。具有很多SVM的高级用法，比如多核配用等。支持Python、R、C++、Matlab等语言。

（4）其它
A.pyml(a python mole for machine learning，支持svm/knn/k-means==)
B.milk(python的机器学习工具包，主要是针对监督学习，包括svm/knn/决策树)

Ⅱ 简单数字识别(knn算法)

knn算法，即k-NearestNeighbor，后面的nn意思是最近邻的意思，前面的k是前k个的意思，就是找到前k个离得最近的元素

离得最近这个词具体实现有很多种，我使用的是欧式几何中的距离公式

二维中两点x(x1,y1),y(x2,y2)间距离公式为sqrt( (x1-x2)^2+(y1-y2)^2 )

推广到n维就是

x(x1,x2, … ,xn),y(y1,y2, … ,yn)

sqrt [ ∑( x[i] - y[i] )^2 ] (i=1,2, … ,n)

knn算法是要计算距离的，也就是数字之间的运算，而图像是png，jpg这种格式，并不是数字也不能直接参与运算，所以我们需要进行一下转换

如图所示一个数字8，首先要确定的是这一步我做的是一个最简单的转换，因为我假定背景和图之间是没有杂物的，而且整个图只有一个数字（0-9）如果遇到其他情况，比如背景色不纯或者有其他干扰图像需要重新设计转换函数

接下来就是最简单的转换，将图片白色部分（背景）变0，有图像的部分变1。转换后的大小要合适，太小会影响识别准确度，太大会增加计算量。所以我用的是书上的32*32，转换后结果如图所示

这样一来，图片就变成了能进行计算的数字了。

接下来我们需要创建一个库，这个库里面存着0-9这些数字的各种类似上图的实例。因为我们待识别的图像要进行对比，选出前k个最近的，比较的对象就是我们的库。假定库中有0-9十个数字，每个数字各有100个这种由0和1表示的实例，那么我们就有了一共1000个实例。

最后一步就是进行对比，利用开头说的欧式几何距离计算公式，首先这个32*32的方阵要转换成一个1*1024的1024维坐标表示，然后拿这个待识别的图像和库中的1000个实例进行距离计算，选出前k个距离最近的。比如50个，这50个里面出现次数最多的数字除以50就是结果数字的概率。比如50个里面数字8出现40次，那么待识别数字是8的可能性就是40/50 = 80%

个人理解：

只能识别单个数字，背景不能有干扰。如果想多数字识别或者背景有干扰需要针对具体情况考虑具体的图像转01的方法。

数字识别非常依赖库中的图像，库中的图像的样子严重影响图像的识别（因为我们是和库中的一一对比找出距离最近的前k个），所以数字的粗细，高低，胖瘦等待都是决定性因素，建库时一定全面考虑数字的可能样子

计算量比较大，待识别图像要和库中所有实例一一计算，如果使用32*32，就已经是1024维了。如果库中有1000个，那就是1024维向量之间的1000次计算，图像更清晰，库更丰富只会使计算量更大

对于其他可以直接计算距离的数值型问题，可以用欧式距离，也可以用其他能代表距离的计算公式，对于非数值型的问题需要进行合适的转换，转换方式很重要，我觉得首先信息不能丢失，其次要精确不能模糊，要实现图片转换前后是一对一的关系

参考资料：机器学习实战 [美] Peter Harrington 人民邮电出版社

python源码

import numpy

import os

from PIL import Image

import heapq

from collections import Counter

def pictureconvert(filename1,filename2,size=(32,32)):

#filename1待识别图像，filename2 待识别图像转换为01txt文件输出，size图像大小，默认32*32

image_file = Image.open(filename1)

image_file = image_file.resize(size)

width,height = image_file.size

f1 = open(filename1,'r')

f2 = open(filename2,'w')

for i in range(height):

for j in range(width):

pixel = image_file.getpixel((j,i))

pixel = pixel[0] + pixel[1] + pixel[2]

if(pixel == 0):

pixel = 0

elif(pixel != 765 and pixel != 0):

pixel = 1

# 0代表黑色（无图像），255代表白色（有图像）

# 0/255 = 0,255/255 = 1

f2.write(str(pixel))

if(j == width-1):

f2.write('\n')

f1.close()

f2.close()

def imgvector(filename):

#filename将待识别图像的01txt文件转换为向量

vector = numpy.zeros((1,1024),numpy.int)

with open(filename) as f:

for i in range(0,32):

linestr = f.readline()

for j in range(0,32):

vector[0,32*i+j] = int(linestr[j])

return vector

def compare(filename1,filename2):

#compare直接读取资源库识别

#filename1资源库目录，filename2 待识别图像01txt文档路径

trainingfilelist = os.listdir(filename1)

m = len(trainingfilelist)

labelvector = []

trainingmatrix = numpy.zeros((m, 1024), numpy.int8)

for i in range(0,m):

filenamestr = trainingfilelist[i]

filestr = filenamestr.split('.')[0]

classnumber = int(filestr.split('_')[0])

labelvector.append(classnumber)

trainingmatrix[i,:] = imgvector(filename1 + '/' + filenamestr)

textvector = imgvector(filename2)

resultdistance = numpy.zeros((1,m))

result = []

for i in range(0,m):

resultdistance[0,i] = numpy.vdot(textvector[0],trainingmatrix[i])

resultindices = heapq.nlargest(50,range(0,len(resultdistance[0])),resultdistance[0].take)

for i in resultindices:

result.append(labelvector[i])

number = Counter(result).most_common(1)

print('此数字是',number[0][0],'的可能性是','%.2f%%' % ((number[0][1]/len(result))*100))

def distinguish(filename1,filename2,filename3,size=(32,32)):

# filename1 png，jpg等格式原始图像路径，filename2 原始图像转换成01txt文件路径，filename3 资源库路径

pictureconvert(filename1,filename2,size)

compare(filename3,filename2)

url1 = "/Users/wang/Desktop/number.png"

url2 = "/Users/wang/Desktop/number.txt"

traininglibrary = "/Users/wang/Documents/trainingDigits"

distinguish(url1,url2,traininglibrary)

导航:首页 > 编程语言 > python怎么调用knn

python怎么调用knn

与python怎么调用knn相关的资料