机器学习-4:机器学习的建模流程

机器学习的建模流程

流程为:
原始数据 --> 数据预处理 --> 特征工程 --> 建模 --> 验证。

原始数据收集

所有AI或机器学习的基础就是数据,没有数据就什么都做不了,在搭建一个系统之前首要考虑的就是有没有足够多的数据可以支撑这个AI系统。数据是最重要的,如何收集数据的策略也是最重要的,很多人说AI的策略就是数据的收集策略。很大程度上数据质量的高低决定了模型的稳定性或效果,所以收集数据这一步非常关键。

数据预处理

如果数据中包含了很多噪音,那可以通过预处理的方法降噪或剔除脏数据。如果有数据格式不一致,字段不对齐等问题,无法后续做统一处理,那也可以通过数据的预处理搞定,规范化数据以保证后续模型的准确性。
实际中,数据预处理是很繁琐的,是很多AI工程师不想触碰的工作,但实际这个工作极其重要,如果数据预处理做不好那数据质量就有问题,后面所有环节都会受到影响,导致机器学习效果差,通常会花大量精力做数据的预处理工作。

特征工程

指从数据或样本里提取出对预测结果有价值的信息,每个应用场景所涉及的特征是不一样的,整个提取有效特征的过程就叫特征工程(Feature Engineering)。
实际工作中我们会花大量精力在特征工程里,这一步非常非常重要,而且它直接影响整个系统的效果。甚至说模型的重要性未必高于特征工程的重要性,所以我们会花50%以上的时间在特征工程这个环节。
经过特征工程后的每一个数据都可以转换成向量或者矩阵或张量这种数值类型,然后这个数就可以直接作为模型的输入,进入建模阶段。

建模

建模阶段就是使用各种各样的模型去尝试,看哪个模型带来的效果是最好的,该环节主要做的事情有几点:1,做一些调参的工作,指我们不断的调整模型,使这个模型可以达到最优的效果。2,改造,当发现模型不太满足实际的需求了,可以对模型做一些改造,然后再调参。

验证

训练出来的模型到底怎么样,如果不好的话可能需要重新做一些前面做过的事情,这个环节非常重要。每个项目都需要一个明确的,独特的评估标准,如果评估通过(比如正确率到达某个标准)就可以上线。
建模的时候都会把给定的数据分成训练数据和测试数据, 主要是为了验证模型的好坏,只有通过测试数据才能看到模型训练得到底行不行。



喜欢的朋友记得点赞、收藏、关注哦!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/13100.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【原创】java+ssm+mysql美食论坛网系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

RHEL 网络配置(Linux网络服务器 09)

0 引入 对于Linux系统的网络管理员来说,掌握Linux服务器的网络配置是至关重要的,同时管理远程主机也是网络管理员必须掌握的。这些是后续网络服务配置的基础。 本文,我们讲解如何使用nmtui命令配置网络参数,以及通过nmtui命令查…

新增支持Elasticsearch数据源,支持自定义在线地图风格,DataEase开源BI工具v2.10.2 LTS发布

2024年11月11日,人人可用的开源BI工具DataEase正式发布v2.10.2 LTS版本。 这一版本的功能变动包括:数据源方面,新增了对Elasticsearch数据源的支持;图表方面,对地图类和表格类图表进行了功能增强和优化,增…

selenium自动化测试框架

一、Selenium自动化测试(基于python) 1、Selenium简介: 1.1 Selenium是一款主要用于Web应用程序自动化测试的工具集合。Selenium测试直接运行在浏览器中,本质是通过驱动浏览器,模拟浏览器的操作,比如跳转…

C++中级学习笔记

1.内存分区模型: C程序在执行时,将内存大方向划分为四个区域 (1)代码区:存放函数体的二进制代码,由操作系统进行管理 (2)全局区:存放全局变量和静态变量以及变量 &am…

基于深度卷积二元分解网络的齿轮和轴承故障特征提取方法

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

Qml-Timeline的使用

Qml-Timeline的使用 Timeline的概述 Timeline:根据关键帧及其缓和曲线指定项目的值属性currentFrame : double:当前帧 属性enabled : bool:是否使能时间线 属性endFrame : double:结束帧值 属性startFrame : double:…

Vue指令详解——以若依框架中封装指令为例分析

自定义指令 在Vue.js中,自定义指令提供了一种非常灵活的方式来扩展Vue的功能。以下是对Vue中自定义指令的详细解释: 一、自定义指令的基本概念 自定义指令允许开发者直接对DOM元素进行低层次操作,而无需编写大量的模板或者JavaScript代码。…

基于微信小程序的大学生心理健康测评系统设计与实现,LW+源码+讲解

摘 要 随着移动互联网的发展,理论和技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对高校教师成果信息管理混乱,出错率高,信息安全性…

一步到位:用Python实现PC屏幕截图并自动发送邮件,实现屏幕监控

软件测试资料领取:[内部资源] 想拿年薪40W的软件测试人员,这份资料必须领取~ 软件测试面试刷题工具:软件测试面试刷题【800道面试题答案免费刷】 在当前的数字化世界中,自动化已经成为我们日常生活和工作中的关键部分。它不仅提…

jwt用户登录,网关给微服务传递用户信息,以及微服务间feign调用传递用户信息

1、引入jwt依赖 <dependency><groupId>io.jsonwebtoken</groupId><artifactId>jjwt</artifactId><version>0.9.1</version></dependency> 2、Jwt工具类&#xff0c;生成token以及解析token package com.niuniu.gateway.uti…

基于Multisim数字电子秒表计时器电路(含仿真和报告)

【全套资料.zip】数字电子秒表电路Multisim仿真设计数字电子技术 文章目录 功能一、Multisim仿真源文件二、原理文档报告资料下载【Multisim仿真报告讲解视频.zip】 功能 数字电子秒表电路 1.秒表由3个显示器显示&#xff0c;其中显示分辩率为1s&#xff0c;计时范围是6分59…

手把手教你30秒下载Typora通用版(mac、win适用)

话不多说&#xff01; 1、去官网选择mac版本下载安装&#xff1a; typora下载 然后打开 typora 包内容找到 / Applications / Typora . app / Contents / Resources / TypeMark / 用编辑器打开上面文件夹&#xff0c; vscode 示例&#xff1a; 找到 page - dist / static / …

鸿蒙ZRouter动态路由框架—生命周期管理能力

文章目录 基本使用(单个页面生命周期&#xff09;页面的全局生命周期监听工作流程图源码 ZRouter从1.1.0版本开始支持生命周期函数管理能力&#xff0c;主要有以下特点&#xff1a; 不影响你原有的生命周期业务逻辑&#xff0c;对NavDestination页面保持着零侵入性&#xff0c;…

英伟达GB200、B200、H200、H100、A100、4090的参数对比

以下是英伟达GB200、B200、H200、H100、A100、4090的参数对比&#xff1a; 型号 架构 制造工艺 晶体管数量 显存类型 显存容量 显存带宽 CUDA核心数 其他主要特性 GB200 Blackwell 未知 2个B200 GPU共4160亿 HBM3e 每颗B200 GPU 192GB&#xff08;总384GB&#x…

IntelliJ+SpringBoot项目实战(五)--配置Druid在线监控数据库

阿里的Druid插件有可视化监控数据库性能的界面。在SpringBoot中集成Druid后&#xff0c;可以进入可视化Html界面监控数据库运行情况。本文先介绍Druid的管理界面&#xff0c;然后在介绍Druid的详细配置。 首先访问http://localhost:8001/druid/ ,打开登录页面&#xff1a; 然后…

2024年小红书代运营公司推荐:品牌种草新阵地

2024年小红书代运营公司推荐&#xff1a;品牌种草新阵地 随着今年双十一的落幕&#xff0c;各大平台通过各具特色的活动实现了优异的表现&#xff0c;标志着国内电商市场全面进入了全域运营的新时代。未来&#xff0c;电商行业将呈现“货架电商内容电商”相结合的趋势。小红书作…

什么是闰秒?

闰秒概念是 1972年提出的&#xff0c;之所以有这个概念&#xff0c;主要是因为由于潮汐等自然现象的影响&#xff0c;地球的自转速度并不是恒定的。 所以&#xff0c;每隔一段时间世界标准时间「协调世界时&#xff08;UTC&#xff09;」会依据地球围绕太阳运动计算的「世界时…

PySide6百练成真(9)

资源的加载 给控件加上图标 1.内置图标 2.自定义资源文件 3.Rcc的使用(基于designer) 4.如果获取资源文件 rcc的使用,基于xml文件 内置图标 from PySide6.QtWidgets import QApplication, QLabel, QVBoxLayout, QWidget, QLineEdit, QToolBox, QMainWindow, QPushButton,QSt…

cmake vscode

cmake_minimum_required(VERSION 3.20.0) project(my_hello) //指定项目 set(CMAKE_CXX_STANDARD 11) //指定c的版本 include_directories( P R O J E C T S O U R C E D I R / i n c l u d e ) / / 包含头文件的目录 / / 指定可执行文件生成目录 s e t ( E X E C U T A B L E…