和鲸科技执行总裁殷自强:面向空间数据协同分析场景的模型生命周期管理方法

导读:

由 ACM SIGSPATIAL 中国分会主办的第五届空间数据智能学术会议(SpatialDI 2024)于 2024 年 4 月 25 日- 27 日在南京圆满召开,主题为“ AGI 时代下的空间数据智能”,旨在深入推动空间数据智能研究的理论进步与应用创新,以便相关领域的专家学者共同探讨新理论、新问题与新方法,共同推动该领域的持续发展。

会议期间,和鲸科技联合创始人,现任公司执行总裁兼首席产品官殷自强受邀在应急减灾与可持续发展专题论坛发表主题报告,题目为《面向空间数据协同分析场景的模型生命周期管理方法》

本文内容已做精简,如需获取完整版课件,请联系我们

分享嘉宾 | 殷自强

和鲸科技联合创始人,现任公司执行总裁兼首席产品官,统筹公司产品战略与客户战略,专注于数据驱动研究与 AI for Science 场景的数据科学平台产品设计与方法创新,主导了 ModelWhale 数据科学协同平台在气象、地质、遥感、空间科学等众多空间数据智能领域的落地,参与了多项国家级研究专项的平台基础设施攻关,对数据智能场景的多角色协同研究流程有独到的见解与丰富的经验积累。

01

企业视角下的空间数据智能分析与应用减灾场景

本次报告旨在以企业的角度探讨如何站在模型生命周期管理的视角,审视空间数据智能分析以及其在各应用减灾场景下的应用。殷自强介绍道,作为一家专注于“数据科学协同平台”的数据智能科技公司和平台服务商,和鲸科技已在气象、地质、地震、遥感、空间科学等领域参与了诸多应急减灾领域的模型落地,对其相关研究方法的快速发展深有体会。

和鲸发现,空间数据智能场景相关的数据积累呈现出爆炸性的增长,涵盖了众多维度。这些数据不仅包括空间站和卫星数据,还涉及地面雷达站点等多种观点数据,使数据变得日益多元化。

其次,我们发现这些数据在各个应用场景中不断进行渗透。无论是地质调查、社会科学、城市空间还是海洋科学等领域,数据都在发挥着重要作用。在这个过程中,数据与应用场景之间呈现出不断的关联、耦合和协同。例如,在气象场景中,我们需要整合卫星、雷达、格点和站点等多种数据来进行气象预报。

此外,许多应用场景也存在多耦合的特点。在完成预测动作后,我们需要立即评估相关的风险。例如,极端天气所带来的风险可能涉及地质灾害以及对城市空间的影响等多个方面。因此,在应用场景上,我们亟需进行相应的耦合处理。

02

企业视角下的空间数据智能分析与应用减灾场景

整个空间数据智能场景中,面对海量的数据,不同组织和研究场景之间的协同变得困难。然而,通过高维压缩形成模型,我们能够实现数据的共享和传递。数据的内在信息与价值正日益以更为丰富和高维的形式融入模型中,对数据的生命周期管理已逐渐演进为对模型生命周期的全面掌控,在此基础上,我们需要进一步审视并协调数据生命周期与模型生命周期之间的动态关系(From DataOps to ModelOps)。当前,针对空间数据智能分析场景的模型生命周期管理流程,和鲸通过自身实践,总结出以下 3 种 AI for Science 的ModelOps 方法论。

SAOps:以知识驱动、以数据验证的科学分析流程形成的专业模型

SAOps 是一个不断提出假设、检验假设的过程,涉及设计实验、分析数据等多个环节。在此过程中,模型的可解释性尤为重要,我们强调解释性优先,旨在解决模型与解释之间的关键问题。为此,我们需要对模型管理进行两项重要工作:一是保留探索模型及结果的过程,采用使用效果不好的方法,其结论和对比结果也能推进模型的发展;二是将模型与计算过程的报告相结合,共同构成成果。

MLOps:以数据驱动、以知识解释的 AI 模型

MLOps 是一个深入研究的流程。这类模型具有多个特点,如依赖数据和算力进行训练,例如,模型的代码和框架可以保持不变,但不同的训练数据会直接影响模型结构。此外,调用的算力资源也会影响模型训练的结果。因此,模型设计不仅取决于设计者,还依赖于数据资源和算力资源。最后,这类模型是全生命周期的,需要不断迭代,以适应数据的不断增长。我们需要进行数据探索、模型训练、模型评估、模型部署、模型监控和优化,以确保模型处于最佳状态。

讨论模型版本时,我们面临的挑战与以往不同。从模型全生命周期的角度看,版本管理变得更为复杂,不再仅限于模型文件本身。现在,我们需综合考虑数据要素、算力代码及训练环境等关键因素。此外,模型需持续评估,仅凭增加数据量并不能保证性能提升,倘若引入脏数据,可能会影响模型表现。因此,需建立持续化评估体系,确保模型始终最佳。

LLMOps:串联数据模型与领域知识的 LLM 智能体

大语言模型不仅在于其语言处理能力,更在于其作为 Agent 智能体基础设施所带来的变革。大模型可以参与 Agent智能体的计划(planning)、工具(tools)、记忆(memory)和行动(action)等过程,加速科学实验设计、阶段性成果学习以及与其他模型的融合。在未来,我们有望将研究流程、模型、科研工具等函数化,供大模型调用,从而加速模型生命周期的研究。

03

企业视角下的空间数据智能分析与应用减灾场景

接下来,我们将通过一个具体案例来深入探讨模型生命周期管理在实际应用中的落地实践。这个案例是和鲸与中国自然资源航空物探遥感中心遥感应用技术研究所合作的项目。在合作过程中,我们对上述模型生命周期管理流程进行了总结,并发现了一些关键特点和要素。

首先,和鲸高度重视模型生命周期管理的完善,因此,确立清晰的研究基本范式显得尤为重要。以遥感研究为例,遥感数据具有许多特殊性,虽然与图像数据相似,但无法直接使用计算机视觉模型进行研究。因此,我们需要将专家知识融合到模型设计过程中,形成“AI+遥感”的研究范式。这种范式强调从数据与知识的联合驱动出发,形成了对整个模型过程的研究管理。

在这个过程中,领域专家和AI模型相关专家之间的协作至关重要。他们需要在平台上共同工作,利用智能解译等相关技术,使模型能够学习并形成相应的流程。这个过程需要从数据驱动逐渐转向数据与知识的联合驱动,进而形成具体的研究范式。随后,和鲸可以基于这些范式开发具体的应用,形成“1+N”的服务模式,即在一个平台上结合多个应用终端,同时满足科研和生产的其他需求。

04

企业视角下的空间数据智能分析与应用减灾场景

特点一:跨角色协同扮演重要角色

首先,专家的知识与数据驱动化知识的结合是这一过程的关键。在讨论整个模型生命周期管理时,我们发现跨角色的协同扮演着重要角色。这主要体现在两个方面:一是领域专家对已有科研数据形成科研分析工具链的过程;二是AI算法模型的不断迭代过程。这两个过程并不是孤立的,而是需要相互协同,共同推动模型的发展。例如,当从遥感数据中提取信息后,我们利用智能解工具生成结果,并进一步开展深入研究。这些研究过程中的成果需要能够被AI解读,以便更好地辅助数据分析。

特点二:时间尺度的不断发展对可复现性的重要性

此外,由于空间数据科学中的数据量随时间呈爆炸性增长,相关模型的持续迭代十分必要。在这个过程中,模型的可复现性至关重要。这意味着无论是内部单位还是其他人,都需要能够基于我们的数据和模型进行下一步的迭代。因此,我们需要讨论如何确保模型能够被有效复现,包括基础设施的建设和对模型理解性的提升。

特点三:社区化承载模型成果对领域发展的重要性

会上的其他专家也多次提及协同的重要性。站在数据智能研究的角度,组织的边界是模糊的,它并不局限于独立的研究机构内,社区化是承载模型成果、推动领域发展的重要方式。不同的组织需要设计相应的模型成果接口,以便与外部组织进行交流和调用。例如,我们设计的和鲸社区,将不同垂直领域,例如气象科学数据分析的模型和成果以开放的形式在平台上共享。

数据科学平台的选型和落地过程极为复杂,充满风险,因此客户在选择产品时极为审慎。随着企业对成本效益和可持续性的日益关注,服务商需提供成本更低、迭代更快、效率更高的方案来满足客户需求。和鲸科技凭借其成熟的竞赛和社区平台,实现了多垂直领域数据分析流程、代码、结果的在线运行与端到端复现,使其他用户能够轻松运行、修改并分享社区内的模板。这不仅为和鲸吸引了大量专业用户,也为数据科学协同平台 ModelWhale 的发展提供了强大的支持。

本文内容已做精简,如需获取完整版课件,请联系我们

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1452555.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

解决javadoc一直找不到路径的问题

解决javadoc一直找不到路径的问题 出现以上问题就是我们在下载jdk的时候一些运行程序安装在C:\Program Files\Common Files\Oracle\Java\javapath下: 一开始是没有javadoc.exe文件的,我们只需要从jdk的bin目录下找到复制到这个里面,就可以使用…

苹果电脑装虚拟机和双系统的区别 苹果笔记本虚拟机和双系统哪个好 虚拟机能装MacOS吗 虚拟机类似的软件

Mac电脑用户在需要使用Windows操作系统的软件时,通常会面临两个选择:安装双系统或使用虚拟机。两种方式各有优缺点,适用于不同的使用场景。本文将详细分析和说明Mac电脑装双系统和虚拟机之间的区别,帮助用户选择最适合自己的方案。…

实况:老菜鸟自力更生从零开始重学spring目标是画出一张唬人大图(二、源码下载编译)

前情提要:调试前的基础知识梳理 速览 “Spring”包含哪些东西源码下载源码编译1、编译工具选择:gradle2、使用gradle编译spring并导入idea预编译spring-oxm导入IDEA确认合适的jdk版本排除spring-aspects模块 开始调试 “Spring”包含哪些东西 可以明确的…

民生银行信用卡中心金融科技24届春招面经

本文介绍2024届春招中,中国民生银行下属信用卡中心的金融科技(系统研发方向) 岗位2场面试的基本情况、提问问题等。 2024年04月投递了中国民生银行下属信用卡中心的金融科技(系统研发方向) 岗位,暂时不清楚…

Linux--08---挂载分区

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 1.查看系统磁盘分区情况1.lsblk 查看2.fdisk -l 2.挂载未分区磁盘1. 创建分区2. 格式化分区3. 创建挂载点4. 挂载分区5. 更新 /etc/fstab6.验证挂载 3.修改挂载的磁…

力扣19. 删除链表的倒数第N个节点

给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5] 示例 2: 输入:head [1], n 1 输出:[] 示例…

springboot+vue+mybatis家电系统+PPT+论文+讲解+售后

随着信息互联网购物的飞速发展,一般企业都去创建属于自己的电商平台以及购物管理系统。本文介绍了家电销售系统的开发全过程。通过分析企业对于家电销售系统的需求,创建了一个计算机管理家电销售系统的方案。文章介绍了家电销售系统的系统分析部分&#…

Ubuntu基础-VirtualBox安装增强功能

目录 零. 前言 一. 安装 1.点击安装增强功能 2.点击光盘图标 3.复制到新文件夹 4.运行命令 5.重启系统 6.成果展示 二. 打开共享 1.共享粘贴 ​编辑2.共享文件夹 三.总结 安装步骤 打开共享粘贴功能: 打开共享文件夹功能: 零. 前言 在使用…

用HAL库改写江科大的stm32入门-7-1 ADC

实验目的:了解ADC基本概念 电路图: ADC(Analog-Digital Converter)模拟-数字转换器,它可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁。 实验效果: &#xff0…

增强的依赖性

增强的依赖性 原文参见 https://universaldependencies.org/u/overview/syntax.html 受控/提升主语 受控主语:表示主语由控制动词决定。提升主语:表示主语通过提升动词从嵌套句提升到主句。 基本树缺少受控动词与其控制者之间的主语依存关系&#xf…

【网络编程】多进程服务器端

并发服务器的实现 多进程服务器:通过创建多个进程提供服务多路复用服务器:通过捆绑并统一管理IO对象提供服务。多线程服务器:通过生成与客户端等量的线程提供服务。、 理解进程process 定义:占用内存空间的正在运行的程序。 CPU核和进程数:1个CPU 中…

搭建自己的AI模型应用网站:JavaScript + Flask-Python + ONNX

1. 前言 本文作者以一个前端新手视角,部署自己的神经网络模型作为后端,搭建自己的网站实现应用的实战经历。目前实现的网页应用有: AI 语音服务主页AI 语音识别AI 语音合成AI CP号码生成器 欢迎大家试用感受,本文将以博客基于G…

[DDR4] DDR1 ~ DDR4 发展史导论

依公知及经验整理,原创保护,禁止转载。 专栏 《深入理解DDR4》 内存和硬盘是电脑的左膀右臂, 挑起存储的大梁。因为内存的存取速度超凡地快, 但内存上的数据掉电又会丢失,一直其中缓存的作用,就像是我们的工…

15天系统化入门AI产品经理,打好入行基础,抢占时代红利!!

前言 随着算法、算力和数据条件的逐渐成熟,AI时代来临已成共识。 与此同时,行业巨头争先布局人工智能,产生大量人才需求,人工智能产品经理岗位缺口高达6.8万。 面对这样一个大热的朝阳行业,产品经理如何才能快速入行…

【C#】图形图像编程

实验目标和要求: 掌握C#图形绘制基本概念;掌握C#字体处理;能进行C#图形图像综合设计。 运行效果如下所示: 1.功能说明与核心代码 使用panel为画板,完成以下设计内容: 使用pen绘制基础图形;使…

《C++ Primer》导学系列:第 2 章 - 变量和基本类型

2.1 基本内置类型 概述 本小节介绍C中的基本内置类型。基本内置类型是构成C程序的基础,它们用于表示数据的不同形式,如整数、浮点数、字符等。理解和使用这些基本类型是编写C程序的起点。 2.1.1 算术类型 C的算术类型分为整型和浮点型。整型用于表示…

高考志愿填报,选什么专业四年后比较吃香?

曾经的理科男,我依旧看好以下专业: 1、计科 很多有刻板印象,认为计科的将来就是程序猿,其实并非如此,软件只是其中一个方向,而且计科是基础型的,拓展空间非常大,未来的发展方向包括…

【linux】认识“文件”的本质,理解“文件系统”的设计逻辑,体会linux优雅的设计理念

⭐⭐⭐个人主页⭐⭐⭐ ~~~~~~~~~~~~~~~~~~ C站最❤❤❤萌❤❤❤博主 ~~~~~~~~~~~~~~~~~~~ ​♥东洛的克莱斯韦克-CSDN博客♥ ~~~~~~~~~~~~~~~~~~~~ 嗷呜~ ✌✌✌✌ 萌妹统治世界~ 🎉🎉🎉🎉 ✈✈✈✈相关文章✈✈✈✈ &#x1f4a…

如何使用 AutoDL 云实例基于LangChain-Chatchat 和 ChatGLM 搭建本地知识库模型详细教程(更新中)

注册 AutoDL 算力云 AutoDL算力云是一个专注于提供人工智能(AI)和深度学习(DL)领域算力资源的云计算平台。它整合了高性能计算资源,如GPU和TPU等,为用户提供了弹性、高效且成本效益高的计算服务。通过Auto…

靠谱放心!康姿百德柔压磁性豪华枕质量大揭秘

康姿百德柔压磁性豪华枕,舒爽透气呵护青春期娇嫩肌肤 良好的睡眠对青少年的生长发育至关重要,想要获得高质量睡眠,除了选择合适的床垫之外,一款合适的枕头同样是打造优质睡眠环境的重要一环。康姿百德集团有限公司深耕睡眠领域已…