pythonopencv标记拐角(python opencv数字识别)

技术Python-OpenCV中如何利用 KNN 算法识别手写数字手写数字数据集 MNIST 介绍为了保证完整性,从算法所用的训练数据讲起,训练数据是由 MNIST 手写数字组成的,MNIST 数据集来自美国国家标准与技

00-1010为了保证完整性,从算法中使用的训练数据开始,训练数据由MNIST的手写数字组成。MNIST数据集来自美国国家标准与技术研究所,由250个不同人的手写数字组成,其中训练集中有6万张图片,测试集中有1万张图片,每张图片都有自己的标签,图片大小为28*28。许多机器学习库提供加载MNIST数据集的方法。这里,keras库用于加载:

#导入keras库

importkeras

#加载数据

(train_dataset,train_labels),(test_dataset,test _ labels)=keras . datasets . mnist . load _ data()

train _ labels=NP . array(train _ labels,dtype=np.int32)

#打印数据集形状

打印(train_dataset.shape,test_dataset.shape)

#图像预览

foriirange(40):

plt .子图(4,10,i 1)

plt.imshow(train_dataset[i],cmap='gray ')

plt.title(train_labels[i],fontsize=10)

plt.axis('off ')

Python-OpenCV中如何利用KNN算法识别手写数字

00-1010加载数据集后,我们尝试使用KNN分类器来识别数字。在原始方法中,我们首先使用原始像素值作为特征,因此图像描述符的大小为28 28=784。

首先,所有的数字图像都由keras加载。为了了解数据训练的全过程,我们将加载的训练数据集分为训练数据集和测试数据集,各部分各占50%:

#加载数据集

(train_dataset,train_labels),(test_dataset,test _ labels)=keras . datasets . mnist . load _ data()

train _ labels=NP . array(train _ labels,dtype=np.int32)

#使用原始图像作为描述符。

defraw_pixels(img):

returnimg .扁平化()

#数据碎片

shuffle=np.random .置换(len(train_dataset))

train_dataset,train _ labels=train _ dataset[洗牌],train _ labels[洗牌]

#计算每个图像的描述符,其中特征描述符是原始像素

raw _ descriptor=[]

forimgintrain_dataset:

raw _ descriptor . append(NP . float 32(raw _ pixels(img)))

raw _ descriptor=NP . crush(raw _ descriptor)

#将数据分为训练数据和测试数据(各占50%)

#因此,使用30,000个数字来训练分类器,使用30,000个数字来测试训练好的分类器。

partition=int(0.5 * len(raw _ descriptors))

raw_descriptors_train,raw _ descriptors _ test=NP . split(raw _ descriptors,[partition])

Labels _ train,labels _ test=NP . split(train _ labels,[partition])现在,我们可以使用knn.train()方法进行训练。

练 KNN 模型并使用 get_accuracy() 函数对其进行测试:

# 训练 KNN 模型
knn = cv2.ml.KNearest_create()
knn.train(raw_descriptors_train, cv2.ml.ROW_SAMPLE, labels_train)
# 测试 kNN 模型
k = 5
ret, result, neighbours, dist = knn.findNearest(raw_descriptors_test, k)
# 根据真实值和预测值计算准确率
def get_accuracy(predictions, labels):
    acc = (np.squeeze(predictions) == labels).mean()
    return acc * 100
acc = get_accuracy(result, labels_test)
print("Accuracy: {}".format(acc))

我们可以看到当 K = 5 时,KNN 模型可以获得 96.48% 的准确率,但我们仍然可以对其进行改进,以获取更高性能。

改进模型1——参数 K 对识别手写数字精确度的影响

我们已经知道在 KNN 算法中,一个影响算法性能的重要参数就是 K,因此,我们可以首先尝试使用不同的 K 值,查看其对识别手写数字精确度的影响。

为了比较不同 K 值时模型的准确率,我们首先需要创建一个字典来存储测试不同 K 值时的准确率:

from collections import defaultdict
results = defaultdict(list)

接下来,计算 knn.findNearest() 方法,改变 K 参数,并将结果存储在字典中:

# K 取值范围为 (1, 9)
for k in range(1, 10):
    ret, result, neighbours, dist = knn.findNearest(raw_descriptors_test, k)
    acc = get_accuracy(result, labels_test)
    print(" {}".format("%.2f" % acc))
    results['50'].append(acc)

最后,绘制结果:

ax = plt.subplot(1, 1, 1)
ax.set_xlim(0, 10)
dim = np.arange(1, 10)
for key in results:
    ax.plot(dim, results[key], linestyle='--', marker='o', label="50%")
    
plt.legend(loc='upper left', title="% training")
plt.title('Accuracy of the K-NN model varying k')
plt.xlabel("number of k")
plt.ylabel("accuracy")
plt.show()

程序运行结果如下图所示:

Python-OpenCV中如何利用 KNN 算法识别手写数字

如上图所示,改变 K 参数获得的准确率也是不同的,因此,在应用程序用可以通过调整 K 参数来获取最佳性能。

改进模型2——训练数据量对识别手写数字精确度的影响

在机器学习中,使用更多的数据训练分类器通常会提高模型的性能,这是由于分类器可以更好地学习特征的结构。在 KNN 分类器中,增加训练数也会增加在特征空间中找到测试数据正确匹配的概率。

接下来,我们就修改=用于训练和测试模型的图像百分比,来观察训练数据量对识别手写数字精确度的影响:

# 划分训练数据集和测试数据集
split_values = np.arange(0.1, 1, 0.1)
# 存储结果准确率
results = defaultdict(list)
# 创建模型
knn = cv2.ml.KNearest_create()
# 不同训练数据量对识别手写数字精确度的影响
for split_value in split_values:
    # 将数据集划分为训练和测试数据集
    partition = int(split_value * len(raw_descriptors))
    raw_descriptors_train, raw_descriptors_test = np.split(raw_descriptors, [partition])
    labels_train, labels_test = np.split(train_labels, [partition])
    # 训练 KNN 模型
    print('Training KNN model - raw pixels as features')
    knn.train(raw_descriptors_train, cv2.ml.ROW_SAMPLE, labels_train)
    # 同时对于每种划分测试不同 K 值影响
    for k in range(1, 10):
        ret, result, neighbours, dist = knn.findNearest(raw_descriptors_test, k)
        acc = get_accuracy(result, labels_test)
        print("{}".format("%.2f" % acc))
        results[int(split_value * 100)].append(acc)

训练算法的数字图像的百分比为10%、20%、…、90%,测试算法的数字百分比为90%、80%、…、10%,最后,绘制结果:

ax = plt.subplot(1, 1, 1)
ax.set_xlim(0, 10)
dim = np.arange(1, 10)
for key in results:
    ax.plot(dim, results[key], linestyle='--', marker='o', label=str(key) + "%")

plt.legend(loc='upper left', title="% training")
plt.title('Accuracy of the KNN model varying both k and the percentage of images to train/test')
plt.xlabel("number of k")
plt.ylabel("accuracy")
plt.show()

Python-OpenCV中如何利用 KNN 算法识别手写数字

从上图可以看出,随着训练图像数量的增加,准确率也会增加。因此当条件允许的情况下,可以通过增加训练数据量来提高模型性能。

虽然可以看到准确率虽然已经可以到达97%以上,但是我们不能就此止步。

改进模型3——预处理对识别手写数字精确度的影响

在以上示例中,我们均使用原始像素值作为特征来训练分类器。在机器学习中,训练分类器之前的一个通常可以对输入数据进行某种预处理,用以提高分类器训练性能,因此,接下来我们应用预处理以查看其对识别手写数字精确度的影响。

预处理函数 desew() 如下:

def deskew(img):
    m = cv2.moments(img)
    if abs(m['mu02']) < 1e-2:
        return img.copy()
    skew = m['mu11'] / m['mu02']
    M = np.float32([[1, skew, -0.5 * SIZE_IMAGE * skew], [0, 1, 0]])
    img = cv2.warpAffine(img, M, (SIZE_IMAGE, SIZE_IMAGE), flags=cv2.WARP_INVERSE_MAP | cv2.INTER_LINEAR)

    return img

desew() 函数通过使用其二阶矩对数字进行去歪斜。更具体地说,可以通过两个中心矩的比值 (mu11/mu02) 计算偏斜的度量。计算出的偏斜用于计算仿射变换,从而消除数字的偏斜。接下来对比预处理的前后图片效果:

for i in range(10):
    plt.subplot(2, 10, i+1)
    plt.imshow(train_dataset[i], cmap='gray')
    plt.title(train_labels[i], fontsize=10)
    plt.axis('off')
    plt.subplot(2, 10, i+11)
    plt.imshow(deskew(train_dataset[i]), cmap='gray')
    plt.axis('off')
plt.show()

在下图的第一行显示了原始数字图像,第二行显示了预处理后的数字图像:

Python-OpenCV中如何利用 KNN 算法识别手写数字

通过应用此预处理,识别的准确率得到提高,准确率曲线如下图所示:

Python-OpenCV中如何利用 KNN 算法识别手写数字

可以看到经过预处理的分类器准确率甚至可以接近98%,考虑到我们仅仅是使用了简单的 KNN 模型,效果已经很不错了,但是我们还可以进一步提高模型性能。

改进模型4——使用高级描述符作为图像特征提高 KNN 算法准确率

在以上示例中,我们一直使用原始像素值作为特征描述符。在机器学习中,一种常见的方法是使用更高级的描述符,接下来将使用定向梯度直方图 (Histogram of Oriented Gradients, HOG) 作为图像特征用以提高 KNN 算法准确率。

特征描述符是图像的一种表示,它通过提取描述基本特征(例如形状、颜色或纹理等)的有用信息来简化图像。通常,特征描述符将图像转换为长度为 n 的特征向量,HOG 是一种用于计算机视觉的流行特征描述符。

接下来定义 get_hog() 函数获取 HOG 描述符:

(train_dataset, train_labels), (test_dataset, test_labels) = keras.datasets.mnist.load_data()
SIZE_IMAGE = train_dataset.shape[1]
train_labels = np.array(train_labels, dtype=np.int32)
def get_hog():
    hog = cv2.HOGDescriptor((SIZE_IMAGE, SIZE_IMAGE), (8, 8), (4, 4), (8, 8), 9, 1, -1, 0, 0.2, 1, 64, True)
    print("hog descriptor size: {}".format(hog.getDescriptorSize()))
    return hog

然后使用 HOG 特征训练 KNN 模型

hog = get_hog()

hog_descriptors = []
for img in train_dataset:
    hog_descriptors.append(hog.compute(deskew(img)))
hog_descriptors = np.squeeze(hog_descriptors)

训练完成的模型的准确率,如下图所示:

Python-OpenCV中如何利用 KNN 算法识别手写数字

通过上述改进过程,可以看到编写机器学习模型时的一个好方法是从解决问题的基本基线模型开始,然后通过添加更好的预处理、更高级的特征描述符或其他机器学习技术来迭代改进模型。最后,如果条件允许,可以收集更多数据用于训练和测试模型。

完整代码

最终完整代码如下所示,改进过程中的其他代码可以根据上述讲解对以下代码进行简单修改获得:

import cv2
import numpy as np
import matplotlib.pyplot as plt
from collections import defaultdict
import keras

(train_dataset, train_labels), (test_dataset, test_labels) = keras.datasets.mnist.load_data()

SIZE_IMAGE = train_dataset.shape[1]

train_labels = np.array(train_labels, dtype=np.int32)
def get_accuracy(predictions, labels):
    acc = (np.squeeze(predictions) == labels).mean()
    return acc * 100
    
def raw_pixels(img):
    return img.flatten()

def deskew(img):
    m = cv2.moments(img)
    if abs(m['mu02']) < 1e-2:
        return img.copy()
    skew = m['mu11'] / m['mu02']
    M = np.float32([[1, skew, -0.5 * SIZE_IMAGE * skew], [0, 1, 0]])
    img = cv2.warpAffine(img, M, (SIZE_IMAGE, SIZE_IMAGE), flags=cv2.WARP_INVERSE_MAP | cv2.INTER_LINEAR)

    return img

def get_hog():
    hog = cv2.HOGDescriptor((SIZE_IMAGE, SIZE_IMAGE), (8, 8), (4, 4), (8, 8), 9, 1, -1, 0, 0.2, 1, 64, True)
    print("hog descriptor size: {}".format(hog.getDescriptorSize()))

    return hog

shuffle = np.random.permutation(len(train_dataset))
train_dataset, train_labels = train_dataset[shuffle], train_labels[shuffle]
# 高级图像描述符
hog = get_hog()
hog_descriptors = []
for img in train_dataset:
    hog_descriptors.append(hog.compute(deskew(img)))
hog_descriptors = np.squeeze(hog_descriptors)
# 数据划分
split_values = np.arange(0.1, 1, 0.1)

# 创建字典用于存储准确率
results = defaultdict(list)

# 创建 KNN 模型
knn = cv2.ml.KNearest_create()

for split_value in split_values:
    partition = int(split_value * len(hog_descriptors))
    hog_descriptors_train, hog_descriptors_test = np.split(hog_descriptors, [partition])
    labels_train, labels_test = np.split(train_labels, [partition])

    print('Training KNN model - HOG features')
    knn.train(hog_descriptors_train, cv2.ml.ROW_SAMPLE, labels_train)

    # 存储准确率
    for k in np.arange(1, 10):
        ret, result, neighbours, dist = knn.findNearest(hog_descriptors_test, k)
        acc = get_accuracy(result, labels_test)
        print(" {}".format("%.2f" % acc))
        results[int(split_value * 100)].append(acc)

fig = plt.figure(figsize=(12, 5))
plt.suptitle("k-NN handwritten digits recognition", fontsize=14, fontweight='bold')

ax = plt.subplot(1, 1, 1)
ax.set_xlim(0, 10)
dim = np.arange(1, 10)

for key in results:
    ax.plot(dim, results[key], linestyle='--', marker='o', label=str(key) + "%")

plt.legend(loc='upper left', title="% training")
plt.title('Accuracy of the k-NN model varying both k and the percentage of images to train/test with pre-processing '
          'and HoG features')
plt.xlabel("number of k")
plt.ylabel("accuracy")
plt.show()

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/148250.html

(0)

相关推荐

  • 网络电视怎么调出频道,网络机顶盒怎么看电视频道

    技术网络电视怎么调出频道,网络机顶盒怎么看电视频道身边好多人买了网络机顶盒,但不知道怎么操作使用它来看电视直播网络电视怎么调出频道。下面我就以自家的电视盒子来教大家如何看直播的详细操作方法吧。1、打开电脑上的搜索当贝市场

    生活 2021年10月23日
  • 美国云服务器时需要考虑的一些事项

    技术美国云服务器时需要考虑的一些事项云服务器与虚拟化技术密切相关,是将一整个物理服务器集群利用虚拟化技术分割出多台相对独立的虚拟服务器,可以运行不同的操作系统和软件云服务器服务商提供不同的配置。根据您的需要,通常有多种选

    礼包 2021年12月9日
  • 洗衣机品牌排行,十大品牌洗衣机排名,有哪些

    技术洗衣机品牌排行,十大品牌洗衣机排名,有哪些世界洗衣机十大品牌排行榜,小编给你们分享一下好东西: 小天鹅 (中国名牌,中国驰名商标,国家免检,洗衣机十大品牌) 海尔Haier (世界品牌,中国名牌,洗衣机十大品牌,山东

    生活 2021年10月31日
  • JVM中怎么解析JVM分代垃圾回收策略

    技术JVM中怎么解析JVM分代垃圾回收策略这篇文章将为大家详细讲解有关JVM中怎么解析JVM分代垃圾回收策略,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。由于不同对象的生

    攻略 2021年10月23日
  • 如何才能让服务器保持稳定运行(怎么让自己的服务器更受欢迎)

    技术如何让服务器随时保持最佳状态今天就跟大家聊聊有关如何让服务器随时保持最佳状态,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。服务器的维护是运维工作的重点,如何通

    攻略 2021年12月22日
  • 微信查看全部群,微信怎么查找自己所在的群

    技术微信查看全部群,微信怎么查找自己所在的群在通讯录中的群聊标签中可以查看微信查看全部群。微信(WeChat)是腾讯公司于2011年1月21日推出的一个为智能终端提供即时通讯服务的免费应用程序,由张小龙所带领的腾讯广州研

    2021年10月20日