AI测试的主要研究方向介绍

随着AI技术的不断进步和应用场景的日益广泛,如何确保人工智能系统的可靠性和安全性, 变得日益重要。人工智能测试作为保障AI系统质量的关键环节,也随着AI技术不断向前发展。本文将介绍当前AI测试的主要研究方向,以期为大家提供一个视角,预见人工智能测试的现状与未来。

1.人工智能测试技术的探索

随着人工智能技术的飞速发展,人工智能系统的质量验证成为研究焦点。传统软件测试通常依赖于黑盒测试方法,如决策表测试、等价划分、边界值分析等,验证软件的功能和特性。而由于人工智能系统在处理大数据、学习功能、系统输出决策的不确定性等方面具有独特性,传统的测试方法已难以满足测试需求。近年来,学术界和工业界纷纷投身人工智能系统测试研究,以寻求更为有效的测试手段。

为了应对人工智能系统测试的种种挑战,研究者们提出了几种新的测试策略,在实践中广泛采纳。首先,基于模型的人工智能系统测试方法,通过构建可追踪、可测试的人工智能测试模型,将智能学习模型和数据模型融入其中,从而更好地评估训练数据和测试数据的质量。其次,蜕变测试作为一种基于属性的软件测试技术,通过定义一组与输入和预期输出相关的蜕变形关系,为解决测试预言和测试用例生成问题提供了有效手段。最后,基于规则的AI系统测试则依赖于专家定义的规则,用于指导人工智能测试的生成和验证。尽管如此,如何有效地结合传统与智能方法,实现对人工智能系统的高效测试,仍是当前面临的重大挑战。

此外,英国人工智能安全研究所信新发布了一个名为Inspect的新测试平台,旨在加强监测先进AI模型的安全风险。学界和工业界正在不断开发新的测试工具和框架,支持AI系统的测试,包括开源和商业解决方案。随着技术的不断进步,未来有待开发出更为先进和适用的测试技术和工具,应对人工智能系统在质量验证方面的挑战。

2.行业标准数据库的建设

为了实现针对特定行业和业务的有效测试,测试数据集往往需要根据AI系统的检测需求和实际应用场景进行定制化构建。确保测试数据的完整性和可解释性对开展人工智能系统的测试工作至关重要。以人工智能医疗系统的测试为例,医学数据因其具有特殊性和敏感性,获取难度较大,医学人工智能算法通常依赖于现有的公开医学数据库进行模型的训练和测试。但这些数据库在数据采集标准、数据质量等方面存在不一致性,给人工智能系统的开发和测试带来了挑战。

目前,多数研究团队在使用自己的独立数据库对医学AI算法进行训练后,会使用第三方数据库进行测试。这种情况下,第三方数据库提供了一个与原训练数据库不同的新型数据集,有助于检验算法在不同数据环境下的泛化能力。相比于第三方数据库,标准测评数据库的建立和应用,可以为医学AI算法的评价提供一个更为统一和标准化的平台,确保测试结果的客观性和公正性。早在2021年,吉林大学第一医院联合多家单位建立了首个肺炎CT影像AI标准数据库。

在当前的技术发展浪潮中,多个行业参与者,包括企业实体、高等教育机构、医疗设施以及监管机构,都在积极从事人工智能医疗器械标准体系建设工作。这些领域涵盖了数据注释、产品性能和安全性验证等方面。为了提高AI医疗系统测试的准确性,未来亟需开发一套标准化的测试数据集管理框架。这个框架将支持对不同主题的基础测试数据集进行文本分词、图像标注、特征筛选等加工处理,为不同AI医疗产品提供定制化的测试数据,解决医学数据模块的通用性与特定测试数据集需求之间的冲突,确保测试数据集既具有足够的广泛性,覆盖多种医疗场景,又能满足特定AI医疗产品的测试需求,提高人工智能系统测试的针对性和可靠性。

3.人工智能测试标准的构建

包括对象识别、感知、行为检测等在内的功能测试是人工智能系统测试的重要组成部分。各种智能功能,如业务决策、推荐和选择、智能命令和动作、分析和预测能力、问答能力也是当前人工智能测试的焦点。

人工智能系统测试,不仅需要对传统的测试方法做出调整,也需要根据不同的业务实际,建立新的评价标准。针对性的人工智能模型测试指标无疑可以更好地评估模型的性能、可靠性、安全性和有效性,确保AI系统在实际应用中能够达到预期效果。与传统的软件质量测试一样,性能、鲁棒性、安全性等质量参数可以适用于人工智能系统。常见的人工智能分类模型的指标包括混淆矩阵、准确率、精确率、召回率、特异性、F-measure分数和AUC—ROC曲线等。除了系统质量参数,还要关注人工智能系统功能和特性的具体质量参数。

比如,在对智能联网汽车进行检测时,检测项目主要包含总体架构安全、车载设备安全、车载网络防护、通信安全、应用服务安全、数据安全。智能联网汽车的仿真模拟试验可以复现现实中可能存在的各种各样的场景,测试自动驾驶系统的决策控制能力,降低风险。测试评价指标分定位、感知、预测、决策规划和控制5大方面。而智能网联汽车的道路测试评价指标主要包括4个方面,共26个具体测试指标:第一,环境感知能力,包括交通标志识别、交通指挥手势识别、交通灯识别、交通标线识别;第二,执行能力,包括窄路掉头、直角转弯等;第三,紧急处理能力;第四,综合驾驶能力,包括避让应急车辆、夜间行驶、通过雨雾区道路等。随着智能网联汽车行业的发展,新的应用场景和技术挑战不断出现,测试指标也在不断更新和优化。

总的来看,人工智能系统加速渗透到各行各业,成熟的人工智能系统评估体系重要性凸显。不同行业对人工智能系统的需求和应用场景具有很大差异,针对性地制定统一的测试指标可以更好地满足各行业特点,推动行业间的技术交流和合作,确保人工智能系统在应用中具备良好的性能。

参考文献

[1] 孙洪志,孟富裕,李珂欣.超声人工智能医疗器械的测试方法与研究[J].现代医院,2024.

[2] 龚磊,孙卓,陈迪,等.人工智能软件的测试和质量验证方法研究[J].科技视界,2022.

[3] 岑洪婵,黄志杰,余嘉旎.智能网联汽车测试与评价研究[J].汽车测试报告,2023.

(如有侵权请联系删除。谢绝转载,更多内容可查看我的专栏)

我们在医疗、汽车领域拥有丰富的人工智能测试经验。具备大量的数据模型和经过训练的测试数据集,如果您有人工智能测试课题共建、人工智能测试技术交流、人工智能测试工具选型、人工智能模型训练、人工智能行业数据集等需求,欢迎私信我,一起技术交流、探讨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/16586.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Python3中str和bytes

参考文章:浅析Python3中的bytes和str类型 - Chown-Jane-Y - 博客园 Python 3最重要的新特性之一是对字符串和二进制数据流做了明确的区分。文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示。Python 3不会以任意隐式的方式混用str…

比特币前景再度不明,剧烈波动性恐即将回归

比特币市场降温,波动性增加 自特朗普赢得美国总统大选以来,比特币市场的投机狂热有所降温,现货和衍生品市场的活跃度开始减弱。比特币在上周五跌破87000美元,较之前创下的历史高点低了约6500美元。这一变化受到美联储主席鲍威尔讲…

node对接ChatGpt的流式输出的配置

node对接ChatGpt的流式输出的配置 首先看一下效果 将数据用流的方式返回给客户端,这种技术需求在传统的管理项目中不多见,但是在媒体或者有实时消息等功能上就会用到,这个知识点对于前端还是很重要的。 即时你不写服务端,但是服务端如果给你这样的接口,你也得知道怎么去使用联…

esp32c3安装micropython环境

esp32c3竟然支持micropython环境,真的太让人高兴了。主要是python开发比较友好,开发速度要快于C和C, 可以用来快速创意验证。 下载 首先到官网:MicroPython - Python for microcontrollers 点击“download”进入下载页面&#…

Linux运维工程师推荐学习的开发语言

前言:会开发的运维和不会开发的运维可以说是两个世界的运维。 个人推荐python和go,前者可以做自动化运维,后者可以深挖k8s;最近就不先演示运维服务技术的部署和架构搭建了,在深挖自动化运维,为了让现在的工…

新手小白学习docker第八弹------实现MySQL主从复制搭建

目录 0 引言1 实操1.1 新建主服务器容器1.2 书写配置文件1.3 重启master实例1.4 进入mysql-master容器master容器实例内创建数据同步用户 1.5 新建从服务器容器1.6 书写配置文件1.7 重启slave实例1.8 查看主从同步状态1.9 进入mysql-slave容器1.9.1 配置主从复制1.9.2 查看主从…

我谈二值形态学基本运算——腐蚀、膨胀、开运算、闭运算

Gonzalez从集合角度定义膨胀和腐蚀,不易理解。 Through these definitions, you can interpret dilation and erosion as sliding neighborhood operations analogous to convolution (or spatial filtering). 禹晶、肖创柏、廖庆敏《数字图像处理(面向…

力扣题目解析--合并两个链表

题目 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例 1: 输入:l1 [1,2,4], l2 [1,3,4] 输出:[1,1,2,3,4,4]示例 2: 输入:l1 [], l2 [] 输出&#xff…

基于yolov8、yolov5的鸟类分类系统(含UI界面、训练好的模型、Python代码、数据集)

项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型:     yolov8、yolov8 SE注意力机制 或 yolov5、yolov5 SE注意力机制 , 直接提供最少两个训练好的模型。模型十分重要,因为有些同学的电脑没有 GPU&#xff0…

css:浮动

网页的本质上就是摆放盒子,把盒子摆到相应的位置上 css提供了三种传统的布局方式: 普通流(标准流):标签按默认方式排列,最基本的布局方式 浮动 定位 实际开发中,一个网页基本包含了三种这种布局…

Essential Cell Biology--Fifth Edition--Chapter one (6)

1.1.4.4 Internal Membranes Create Intracellular Compartments with Different Functions [细胞膜形成具有不同功能的细胞内隔室] 细胞核、线粒体和叶绿体并不是真核细胞中唯一的膜包围细胞器。细胞质中含有大量的[ a profusion of]其他细胞器,这些细胞器被单层膜…

量子奇异值阈值算法

特征值分解只适用于方阵,如何扩展到任意形状的矩阵呢?奇异值分解能够解决此问题。量子奇异值阈值算法在奇异值分解的基础上将小的特征值设置为0,从而将小的特征值及其对应的特征向量去掉,进而降低矩阵的秩,达到降维的目…

Python_爬虫3_Requests库网络爬虫实战(5个实例)

目录 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 实例3:百度360搜索关键词提交 实例4:网络图片的爬取和存储 实例5:IP地址归地的自动查询 实例1:京东商品页面的爬取 import requests url …

黑马微项目

目录 1 飞机票 2 生成一个五位数验证码 3 数字加密 4 数字解密 5 抢红包 6 双色球系统 7 用户登录 8 金额转换 9 手机号屏蔽 10 罗马数字转换 11 调整字符串 12 初级学生管理系统(学生数据的管理) 13 学生管理系统(用户的相关操…

基于lighthouse搭建私有网盘Cloudreve【开源应用实践】

基于lighthouse搭建私有网盘Cloudreve【超高性价比】 今天给大家分享一款私人网盘神器,既能存放你的文件文档,也能替你保存那不可告人的秘密~ 香菇今天将手把手教给大家如何在腾讯云轻量应用服务器上搭建个人专属网盘 1. 既爱又恨的网盘存储 很多小伙伴…

博物馆实景复刻:开启沉浸式文化体验的新篇章

随着数字化技术的飞速发展,博物馆的展览形式正在经历一场前所未有的变革。3数字博物馆和3D线上展览,这种创新的展览方式不仅打破了时间和空间的限制,更让文化遗产的保护与传承迈上了一个新的台阶。 本文将深入探讨博物馆实景复刻虚拟展厅的兴…

java中设计模式的使用(持续更新中)

概述 设计模式的目的:编写软件过程中,程序员面临着来自耦合性,内聚性以及可维护性,可扩展性,重用性,灵活性等多方面的挑战,设计模式是为了让程序(软件),具有…

linux基础io重定向

文章目录 目录 文章目录 前言 一、函数的认识 1、认识close函数和dup2函数 1、close函数: ​编辑 2、write、read函数 1、write函数 2、read函数 二、重定向 1.引入函数dup2 ​编辑 2、输出重定向 3.输出重定向 三、myshell重定向 总结 前言 接上一篇,…

[STM32] 定时器应用之输出比较 (五)

文章目录 1.输出比较2.PWM 介绍3.配置PWM 1.输出比较 OC: 输出比较。 输出比较可以通过比较CNT与CCR寄存器值的关系,来对输出电平进行置1、置0或翻转的操作,用于输出一定频率和占空比的PWM波形。每个高级定时器和通用定时器都拥有4个输出比较通道高级定…

【计算机毕设】无查重 基于python豆瓣电影评论舆情数据可视化系统(完整系统源码+数据库+开发笔记+详细部署教程)✅

目录 【计算机毕设】无查重 基于python豆瓣电影数据可视化系统(完整系统源码数据库开发笔记详细部署教程)✅ 一、项目背景 二、项目目标 三、项目功能 四、开发技术介绍 五、数据库设计 六、项目展示 七、开发笔记 八、启动步骤文档 九、权威教…