专访阿里云:AI 时代服务器操作系统洗牌在即,生态合作重构未来

编者按:近日,2024 龙蜥操作系统大会已于北京圆满举办。大会期间,CSDN 采访了阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇,前瞻性宏观解读面向 AI 智算时代,服务器操作系统面临的挑战与机遇。以下为采访全文:

图片

8 月 30 日,2024 龙蜥操作系统大会(OpenAnolis Conference,以下简称“龙蜥大会”)在北京召开,作为国内开源操作系统根社区,龙蜥社区 Anolis OS 及衍生版装机量已突破 800 万套,并在会上推出 Anolis OS 23 官方正式版,全面兼容国内外主流 CPU、GPU 架构。基于“云+AI”创新,龙蜥社区发布“Anolis OS 23 生态衍生计划”“CentOS 替代计划”“AI 应用推广计划”等三大计划,推动开源操作系统实现商业化的良性循环发展。

阿里云基础软件部资深技术总监、龙蜥社区技术委员会主席杨勇在大会期间接受 CSDN 采访时表示,大模型引领的 AI 算力基础设施创新需求,正在倒逼服务器操作系统从云原生系统向 AI 系统全面进化,市场或将重新洗牌,开源操作系统有望在未来智算体系中占据统治地位。

作为现代计算产业产业链重要的一环,服务器操作系统历经半个世纪的发展,从 UNIX 到商业 Windows Server 系列、开源 Linux 各类知名的发行版,在此前的互联网时代已经成熟。但随着 AI 时代的到来,阿里云结合通义、龙蜥社区的实践与发展,认识到了服务器操作系统在复杂 AI 基础设施体系中存在可靠性、稳定性、算力利用率、智能运维等新需求杨勇希望通过龙蜥大会将这些趋势判断传递出去,壮大社区生态,携手布局智算未来。

AI 算力猛增倒逼操作系统全链路优化

龙蜥社区成立于 2020 年,其发起龙蜥操作系统 Anolis OS 项目的首先要做的是平替当年宣布将停服的 CentOS。到今年 6 月 30 日,此前占据国内主流地位的 CentOS 7 的生命周期已正式画上句号,杨勇表示,结合现代云计算技术的发展,龙蜥社区已积累了完备的替换迁移技术,针对业务系统迁移的核心挑战,形成了平替、升级和安全接管三类方案,能够在保证业务连续性、稳定性的前提下护航企业顺利迁移。他透露,在阿里云平台上,龙蜥和阿里云版本操作系统的部署数量,已于 2023 年超过了 CentOS。

新兴业务通常基于 Java 与 Go 语言构建,较为容易基于社区服务实现自助迁移,而传统 C/C++ 业务迁移需要应用开发者配合,可能由于应用源代码遗失等原因需要更专业的服务,杨勇表示,龙蜥社区平台可以将这些需求导向到社区理事单位、合作伙伴提供的商业服务,这很好地保障了社区生态的健康发展和企业的成熟应用。

作为一个技术与产品并重的社区,龙蜥社区目前更为关注的是云原生、AI 技术趋势对服务器操作系统的冲击。AI 大模型的落地,需要构建 AI 智算集群,满足大模型开发、部署、训练和推理场景的需要,算力需求远超此前的 AI 技术。在杨勇看来,大模型算力集群规模猛增意味着新的稳定性挑战,这是 AI 基础设施面临的首要问题,需要管理软硬件资源的操作系统可和上层负责运维 AI 的平台协同解决。

同时,AI 基础设施还在操作系统之上架构了一个集群调度层和 AI 框架,形成一个复杂多层的软件栈,算力资源利用率的主要瓶颈便从芯片转移到了数据流动链路,即模型训练、推理时,数据如何在硬件和软件多层之间高效传递,这涉及异构硬件、操作系统和上层应用的协同,是一个全链路的优化工作。

此外,云原生分布式系统的可观测性、故障预警、问题诊断、故障自愈、智能运维以及结合 AI 技术的落地,如 OS Colpilot、AIOps,也是很大的挑战。

壮大社区生态,布局前沿技术

要完成上述技术突破,推进 AI 基础设施革命,杨勇认为,需要整个产业“疯狂地迭代”。事实上,在龙蜥社区,来自阿里云以外的贡献,目前在内核侧占到了 53%, 在核外软件包侧占到了 34%。

作为龙蜥社区技术委员会主席,杨勇希望通过龙蜥大会这样的平台,以有效的组织将 AI、云等技术判断清晰传递给合作伙伴、用户和开发者,强化牵引作用,吸引更多志同道合的人参与龙蜥社区,加入到疯狂的迭代进程。

对于阿里云与龙蜥社区生态中的双重关系,杨勇总结为核心贡献者和受益者。“随着龙蜥社区生态的发展,各个参与者,也包括阿里云,从中获得越来越多的收益。”杨勇说。例如,浪潮信息在龙蜥社区硬件兼容性的贡献,使得阿里云系统能够更加顺利地部署到客户拥有的浪潮服务器上。

疯狂的迭代从何处着手?阿里云给出的答案,是能够提升 AI 算力性能和可靠性的前沿硬件技术,例如高速的互联总线、数据中心的网络带宽能力大幅提升,带来的系统层面的问题。此外,就是 AI 基础设施新场景下带来的不同的优化思路。从历史的观点来看,通用 CPU 的能力按照摩尔定律持续提升、虚拟化、容器化的应用生态发展等都已证明,操作系统的发展驱动力与创新节奏,与硬件或应用软件这两个因素息息相关。

另外的一个具体案例是 DPU,在一些厂商的方案里,高带宽 RDMA 高速网络就是由 DPU 管理的。而实现 CPU 和 GPU 高速互联支撑训练推理一体、成为技术护城河的高速互联技术(NVLink),也是这样一种硬件技术。

“AI 算力发展还处在早期,由先进的硬件技术驱动的服务操作系统创新尚未真正来临,”杨勇大胆预测说,未来这个领域将充满无数可能,包括在算力管理、运维管理中如何兼容乃至抽象屏蔽 AI 时代的各种新硬件。

—— 完 ——

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1535268.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Java 语法基础

计算机存储规则 text 文本 : 数字、字母、汉字imagesound声音计算机中,任意数据都是以二进制的形式存储的 汉字存储: 计算机的存储规则 1. GB2312编码: 1981年5月1日发布的简体中文汉字编码国家标准。收录7445个图形字符,其中包括6763个汉字。 2. B1G5编码:台湾地区繁体…

基于SpringBoot+Vue的考务报名平台(带1w+文档)

基于SpringBootVue的考务报名平台(带1w文档) 基于SpringBootVue的考务报名平台(带1w文档) 当前社会各行业领域竞争压力非常大,随着当前时代的信息化,科学化发展,让社会各行业领域都争相使用新的信息技术,对行业内的各种相关数据进…

CesiumJS+SuperMap3D.js混用实现可视域分析 S3M图层加载 裁剪区域绘制

版本简介: cesium:1.99;Supermap3D:SuperMap iClient JavaScript 11i(2023); 官方下载文档链家:SuperMap技术资源中心|为您提供全面的在线技术服务 示例参考:support.supermap.com.cn:8090/w…

切换淘宝最新镜像源npm详细讲解

​ 大家好,我是程序员小羊! 前言: 在中国大陆,npm(Node Package Manager)的默认源由于网络限制,速度可能较慢。为了解决这个问题,淘宝提供了一个镜像源,它同步了 npm 的…

电商API接口安全:警惕常见漏洞,筑牢数据防线

在电子商务的蓬勃发展中,API接口扮演着至关重要的角色,它们使得数据交换和业务流程自动化成为可能。然而,随着API的广泛应用,安全问题也日益凸显。本文将探讨电商API接口中常见的安全漏洞,并提供有效的防范措施。 一、…

第158天:安全开发-Python-Socket编程反弹Shell分离免杀端口探针域名爆破

前置知识 使用 socket 模块 1. 导入模块 首先,你需要导入 Python 的 socket 模块。 import socket 2. 创建套接字 使用 socket.socket() 函数创建一个新的套接字。这个函数可以接收两个参数:地址族和套接字类型。 地址族(Address Family&…

大厂硬件梦:字节、腾讯“向首”,华为、小米“向手”

涉足可穿戴设备的大厂们,都抱着再造用户入口的野望,大模型治不好的痼疾,仍需继续前行寻找解药。 转载:科技新知 原创 作者丨茯神 编辑丨蕨影 苹果发布会再次令网友失望!相比iPhone新机配色丑上热搜,反而苹…

《PostMan(一):配置全局令牌》

文章目录 一、配置全局token1、设置2、添加全局3、添加全局变量名称4、选中全局,并查看5、添加赋值脚本6、配置令牌取值7、即可成功获取用户信息 一、配置全局token 1、设置 2、添加全局 3、添加全局变量名称 4、选中全局,并查看 5、添加赋值脚本 // 把…

2024年智能船舶与机电系统国际学术会议(ICISES 2024)

2024年智能船舶与机电系统国际学术会议(ICISES 2024)初定于2024年12月27-29日在中国广州举行。会议主要围智能船舶与机电系统等研究领域展开讨论。会议旨在为从事相关研究的专家学者、工程技术人员、技术研发人员提供一个共享科研成果和前沿技术&#xf…

门磁模块详解(防盗感应开关 STM32)

目录 一、介绍 二、程序设计 main.c文件 gate_guard.h文件 gate_guard.c文件 三、实验效果 四、资料获取 项目分享 一、介绍 MC-38常闭式门磁开关是作为IO开关输入数字信号的,原理是合在一起信号是导通的 , 配合有线主机使用 不能单独使用。适用于非铁质&a…

function uuid_generate_v4()不存在

说明:记录一次使用postgresql函数错误,如下: 项目中的一个SQL用到了uuid_generate_v4()函数生成uuid作为记录的主键,结果报上面这个错误; 分析&排查 首先,我连接上了数据库,在数据库里敲下…

矩阵直播换IP:如何使用代理IP提升直播效果

在直播行业中,稳定的网络连接和高质量的直播效果至关重要。然而,随着观众数量的增加和网络环境的复杂化,直播过程中可能会遇到网络波动、IP封禁等问题。通过使用代理IP,可以有效解决这些问题,提升直播效果。本文将详细…

谈谈LLM训练中的“过拟合”与“欠拟合”

如今,由于其出色的理解、生成和操纵人类语言的能力,语言模型已经成为焦点。据最新调查数据显示,大概30%的企业计划使用非结构化数据来提高大型语言模型(LLM)的准确性。在训练这些语言模型时,一个基本挑战是…

VSCode C++ Tasks.json基本信息介绍

前言 上文介绍了VSCode在Windows环境下如果创建C项目和编译多个文件项目,但是只是粗略的说明了一下Tasks.json文件。今天对tasks.json进行进一步的了解。 内容 Tasks文件 {"version": "2.0.0","tasks": [{"type": &quo…

IPC之AIDL从认识到实战

目录 前言 什么是AIDL? 为什么要设计出这样一种语言?它能帮助我们干什么? 还有其他方法能实现跨进程通信吗?相较于别的方法AIDL有什么优势呢? AIDL的相关语法 Java与AIDL的不同之处 AIDL默认支持的数据类型: …

博弈美业系统实操:美业门店管理系统如何查看客户档案?美业SaaS系统源码

1.打开博弈美业App; 2.点击App下方【客户】,进入客户管理页; 3.找到想要查看的客户,点击进入客户详情页; 4.客户详情页可查看客户个人信息、个性标签、消费记录、回访记录等等详细信息。

RedisTemplate操作ZSet的API

文章目录 ⛄概述⛄常见命令有⛄RedisTemplate API❄️❄️ 向集合中插入元素,并设置分数❄️❄️向集合中插入多个元素,并设置分数❄️❄️按照排名先后(从小到大)打印指定区间内的元素, -1为打印全部❄️❄️获得指定元素的分数❄️❄️返回集合内的成员个数❄️❄…

026.(娱乐)魔改浏览器-任务栏图标右上角加提示徽章

一、目标: windows中,打开chromium,任务栏中会出现一个chromium的图标。我们的目标是给这个图标的右上角,加上"有1条新消息"的小提示图标,也叫徽章(badge)注意:本章节纯属娱乐,有需要…

钻机、塔吊等大型工程设备,如何远程维护、实时采集运行数据?

在建筑和工程领域,重型设备的应用不可或缺,无论是在道路与桥梁建设、高层建筑施工,还是在风电、石油等能源项目的开发中,都会用到塔吊、钻机等大型机械工程设备。 随着数字化升级、工业4.0成为行业发展趋势,为了进一步…

基于python+django+mysql+Nanodet检测模型的水稻虫害检测系统

博主介绍: 大家好,本人精通Java、Python、C#、C、C编程语言,同时也熟练掌握微信小程序、Php和Android等技术,能够为大家提供全方位的技术支持和交流。 我有丰富的成品Java、Python、C#毕设项目经验,能够为学生提供各类…