【机器学习】分类算法-KNN算法实现

一、前言

   最近,在学习机器学习相关的内容,就想着能不能跑一些机器学习的Demo,这样更方便后期的学习,于是在B站上,找了一个Up主【abilityjh】的视频,跟着学,跟着敲代码,自己在博客上将学的东西,以博客、大白话的形式记录,方便后期的回顾,也希望可以帮助到大家!

二、什么是KNN算法

   KNN算法也叫做K-临近算法,也就是说对于一个未知的样本,我们可以从已知的样本中,在一定范围内确定K个数,在K个数中,哪一类的类型个数多,我们就将未知样本归于哪一类,从而确定它的类型。

如图所示在这个圆圈范围内,有4个三角形,两个正方形,那么对于未知样本的红色圆形就最终判定为三角形。

三、KNN算法实现

(1)案例介绍

如上图所示,我们以B站Up主给的情况做一个案例,训练集是通过“接吻次数”、‘打斗次数’来确定电影类型,我们这个案例需要事先更具训练集来判断出测试集的电影类型。

(2)实现步骤

导入必须得数据库

import numpy as np
import matplotlib.pyplot as plt

①我们要建立训练和测试数据集

我们将接吻kiss和打斗fight分别一 一对应,用filmType代表不同的电影类型(1为爱情电影,2为动作电影),然后将数据转化为矩阵

# Python 的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号
# (1)建立数据集
fight = (3, 2, 1, 101, 99, 98)
kiss = (104, 100, 81, 10, 5, 2)
filmType = (1, 1, 1, 2, 2, 2)
plt.scatter(fight, kiss, c=filmType)
x = np.array([fight, kiss])
x = x.T
y = np.array(filmType)
plt.show()
print(x)
print(y)

效果:

②计算距离并排序

计算未知点到每个点的距离

xx = np.array([18, 90])
# numpy求和sum(x)函数,x==0按照列求和,x=1按照行求和
dist = (((x - xx) ** 2).sum(1)) ** 0.5
# 按照索引值排序的
sortdDist = dist.argsort()

③选取最近的K个点,来做选择

从上面的操作中,我们已经能够拿到,未知点到每个测试点的由近到远的距离对应的下标,此时我们采用一个classCount{}字典来统计,临近的K个点中,不同类型出现的次数。

k = 4
classCount = {}
for i in range(k):# 根据索引值去映射voteLabel = y[sortdDist[i]]classCount[voteLabel] = classCount.get(voteLabel, 0) + 1
print('class: count', classCount)

这段代码稍微有点绕,解释一下:我们选取临近的K个点,创建了一个字典classCount{},我们遍历循环从0开始,我们从上面的代码知道,sortdDist[0]=1,y[1]=1,所以classCount[voteLabel] = classCount.get(voteLabel, 0) + 1就是在classCount[1]=0的基础上+1,则classCount[1]=1,这是第一次循环;我们不妨在分析一次i=1时的循环:sortdDist[1]=2,y[2]=1,所以classCount[voteLabel] = classCount.get(voteLabel, 0) + 1就是在classCount[1]=1的基础上+1,则classCount[1]=2;其他的以此类推即可!最终的话classCount={1:3,2:1}

运行效果:

④根据多数表决,输出结果

其实,就是将我们classCount中的value做比较(比大小),得出value值最大的,对应的key,则对应key的类型就是未知点对应类型。

maxType = 0
maxCount = -1
for key, value in classCount.items():if value > maxCount:maxType = keymaxCount = value
print('output: ', maxType)

效果:

如图所示,我们就可以根据训练集和规定的K个参数,得到我们未知的点的类型为1即爱情类电影。

四、总结

   虽然这只是一个简单的案例,但是却可以帮助我们理解KNN算法的基本原理,以后面可以再出一篇通过读取文本数据(数据量较多),通过KNN算法来实现未知变量的分类和识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1475044.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

视频压缩软件哪个压缩最小,视频用什么软件压缩最小

在数字媒体时代,视频内容的生产与分享已成为生活常态。但随之而来的问题就是,大视频文件占用过多存储空间,上传和分享也变得不便。本文将为你揭示如何将视频压缩到最小,同时保持画质清晰。让我们一起探索吧! 下载并文件…

ICC2:如何设置route_auto只绕线一轮?

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 星球小伙伴提问,如何设置route_auto只绕线一轮,想看一下short分布。 这个方法分两步: 关掉redundant via优化 set_app_options -name route.common.po…

展厅AI数字人:实现智慧园区与数字孪生的高效交互展示

随着人工智能技术的飞速发展,智慧园区和数字孪生技术已经成为展厅管理和规划的重要工具,展厅AI数字人可以提供沉浸式的展览体验。 展厅大屏幕支持与AI数字人连接,用户可以直接通过语音交互的形式操作大屏幕显示的内容,实现对大屏…

AI工具杂谈

AI是在帮助开发者还是取代他们? 在软件开发领域,生成式人工智能(AIGC)正在改变开发者的工作方式。无论是代码生成、错误检测还是自动化测试,AI工具正在成为开发者的得力助手。然而,这也引发了对开发者职业…

ROS2 分布式 及 ssh远程控制 和 上传下载文件或文件夹

问题1. 多台计算机连接同一wifi后 ,运行ROS2的小乌龟案例,自己的计算机,无法控制其他电脑的小乌龟 按照正常的情况来说,ROS2是DDS的自发现通信机制,只要处在同一wifi网络中, A计算机执行启动小乌龟的命…

下载安装JavaFX及解决报错:缺少 JavaFX 运行时组件, 需要使用该组件来运行此应用程序|Eclipse

目录 1.下载并解压 2.Eclipse配置 3.报错问题 解决方法1:将javaSE更改到9以下 解决方法2: 使用module-info.java配置解决 1.下载并解压 JavaFX下载地址:JavaFX - Gluon 选择合适自己电脑配置的sdk版本下载 打不开网页的参考这个博客&…

系统架构设计师——计算机体系结构

分值占比3-4分 计算机硬件组成 计算机硬件组成主要包括主机、存储器和输入/输出设备。 主机:主机是计算机的核心部分,包括运算器、控制器、主存等组件。运算器负责执行算术和逻辑运算;控制器负责协调和控制计算机的各个部件;主存…

从零开始的python学习生活1

python函数的对返回值 本来多个return是不行的 这种语法就能接受多个返回值 def hanshu():return 1,"hello",True x,y,z hanshu() print(x) print(y) print(z)函数的多种传参方式 提前说明白了顺序就无所谓了 关键字传递一个传递参数,一个传递键值…

maven编码报错

maven 编译的时候编码报错: classworlds For input string: "ㄻ孛孛"报错原因: maven 编码使用的是UTF-16 ,系统中使用UFT-8 解决办法: 如下设置为UTF-8

Science Advances|用于肌电检测的柔性微针电极阵列(健康监测/柔性传感/柔性电子)

2024年5月1日,美国南加州大学Hangbo Zhao课题组在《Science Advances》上发布了一篇题为“Highly stretchable and customizable microneedle electrode arrays for intramuscular electromyography”的论文。论文内容如下: 一、 摘要 可伸缩的三维穿透式微电极阵列在多个领…

YOLOv5、v7、v8如何修改检测框文字颜色和大小

YOLOv5和YOLOv8默认的标签文字颜色为白色,但是在亮度较大的图片中文字不明显,就需要对标签文字的颜色进行修改 一、YOLOv5 打开X:\Anaconda\envs\your-env\Lib\site-packages\ultralytics\utils\plotting.py X代表你的anaconda安装的盘,yo…

【Linux】记录一起网站劫持事件

故事很短,处理也简单。权当记录一下,各位安全大大们手下留情。 最近一位客户遇到官网被劫持的情况,想我们帮忙解决一下(本来不关我们的事,毕竟情面在这…还是无偿地协助一下),经过三四轮“谦让…

innovus:设置instance padding

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 相关文章链接: innovus:inst pad 、cell pad 、module pad 、clock cell spacing设置方法 前面文章讲到如何设置各种padding的方法,有星球小伙伴问道&…

七、Docker常规软件安装

目录 一、总体步骤 二、安装tomcat 1、docker hub上查找tomcat镜像 三、安装MySQL 1、查看MySQL镜像 2、拉取MySQL镜像到本地,本次拉取MySQL5.7 3、使用MySQL镜像创建容器 4、使用Windows数据库工具,连接MySQL实例 5、常见问题 6、创建MySQL容器实例 7、新…

lspci

【原】Linux之PCIE三种空间解析 PCIe学习笔记——2.PCIe配置空间 PCIE学习(2)PCIE配置空间详解 开发者分享 | 使用 lspci 和 setpci 调试 PCIe 问题 b : 字节 w:word L: 4byte

OpenCV 笔记(35):频域低通滤波——高斯低通滤波器、巴特沃斯低通滤波器

1. 高斯低通滤波器 高斯低通滤波器(GLPF)是一种具有平滑频域特性、较慢衰减速度和良好截止频率附近衰减效果的滤波器。在图像处理中有着广泛的应用。 高斯低通滤波器的传播函数有如下的形式: 其中,D(u,v) 表示中心点到频域中心的…

如何监控 PostgreSQL 中表空间的使用情况并进行合理的管理?

文章目录 如何监控 PostgreSQL 中表空间的使用情况并进行合理的管理 一、引言 在 PostgreSQL 数据库中,表空间(Tablespace)是用于管理数据库对象存储位置的逻辑存储区域。有效地监控和管理表空间的使用情况对于确保数据库的性能、优化存储资…

(一)、python程序--模拟电脑鼠走迷宫

一、绪论 1、简介 电脑鼠走迷宫是一种比赛,制作实物电脑鼠小车在迷宫找目标点,用时最短者获胜。考验参赛选手软硬件结合的能力。 2、走迷宫模拟软件中已实现功能 1、点击迷宫墙壁可编辑迷宫,并且可保存和加载迷宫形状文件; 2、…

聚观早报 | 蚁天鉴2.0发布;理想汽车推送无图NOA

聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 7月8日消息 蚁天鉴2.0发布 理想汽车推送无图NOA 特斯拉推送FSD v12.4.3 iQOO Neo9s Pro配色公布 百川智能AI健康…

#数据结构 链表

单向链表 1. 概念 单向链表 单向循环链表 双向链表 双向循环链表 解决:长度固定的问题,插入和删除麻烦的问题 1、逻辑结构: 线性结构 2、存储结构: 链式存储 链表就是将 结点 用链串起来的线性表,链就是 结点 中的…