百度智能云新一代云原生产品加速 AI 原生应用落地

本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。

图片


今天为大家分享在过去的一年里,围绕 AI 原生的大背景下,百度智能云在基础公有云的计算、存储、网络以及云原生等产品和技术方面所做出的核心工作。

随着大模型所带来的 AI 技术的代际演化,我们总结在云上存在三种典型的工作负载: 以「数据并行」为核心思想的「大数据」计算负载,以「应用并行」为核心思想的「云原生」工作负载,以及以分布式「张量并行」计算来实现大模型训练和推理的「大模型」工作负载。

为了更好的支撑这三种典型的工作负载,我们以云原生架构和 AI 原生架构的深度技术融合为中心思想,重点围绕云原生计算、云原生网络、云原生存储和云原生应用这 4 个方向来打造新一代的基础公有云产品和技术体系。

  • 云原生计算:基于新一代 CPU 和 GPU 芯片实现算力升级,结合 DPU 技术,打造极致的性价比计算产品;
  • 云原生网络:基于云原生架构和软硬结合技术,在性能和规模上全面升级,实现高效组网;
  • 云原生存储:基于新一代目录树架构,打造云原生数据湖产品体系,为 AI 应用提供数据存储底座;
  • 云原生应用:面向开发者友好,建设云原生应用产品的企业级特性,提升应用部署管理效率。

图片

在云原生计算方向,发布全新一代的计算实例和一系列企业级能力的升级。

在通用计算方面,结合新一代 Intel 和 AMD cpu 芯片,百度智能云上全新一代的 Intel EMR 和 AMD genoa 计算实例已经全面开放售卖。同时我们明年会推出基于 Intel 至强 6 的计算产品,全系产品主频在 3.3GHz 以上,满足对高主频算力有需求的场景。

在异构计算方面,百度智能云提供支持多种异构芯片的计算产品,包括国际主流的 L20/H20 等 GPU,以及自研加速芯片等计算产品,面向推理和训练场景全面优化性能,最高配备 3.2T 的 RDMA 高速网络,实现算力和网络的最佳配比,形成形态丰富的异构算力矩阵。

面向 AI 计算对模型安全的强烈需求,结合 Intel TDX 技术,我们发布了机密计算虚机产品,基于硬件实现内存和显存的数据加密,让应用无需修改就能实现加密能力。同时基于我们在虚拟机技术上的深厚积累,在总线拓扑和设备虚拟化等方面做了大量优化,极致降低了性能损耗,满足大模型训练和推理在计算性能和模型安全方面的双重要求。

百度智能云计算产品还实现了一系列企业级的产品能力升级, 基于大模型技术升级了智能终端,全面集成了 AI 助手,面向开发者完善了实例诊断和健康检查能力;面向短链接等应用场景提供了性能优化,面向不同 CPU 平台的应用迁移提供了专属的性能诊断和优化工具 Btune 等;开放了新版维修平台,实现了可订阅和可编程的事件总线。

图片

AI 计算场景对模型数据安全提出了更高要求,基于 Intel TDX 机密技术我们全新发布企业级密算虚机产品。如左图所示,分别展示了普通虚机、加密的纯 CPU 虚机和加密的 GPU 虚机的形态。

机密虚机可以实现应用程序内存和显存的数据加密,从而保护模型的安全。百度智能云提供了 CPU 机密虚机,保护内存数据的机密性和完整性。基于英伟达 Hopper 架构,提供 GPU 机密虚机保证模型数据的安全。除了内存和显存以外,对本地盘和云盘等持久化数据提供端到端加密能力,保证持久化数据的安全。

图片

基于百度太行 DPU 2.0 实现了计算架构的全面升级。DPU是云基础设施的底座,我们将虚拟化软件全部卸载到 DPU 上,从而提供了全核售卖的虚拟机能力,同时将存储和网络的 I/O 数据流利用 DPU 进行卸载和硬件加速,提供了可预期的存储和网络 I/O 性能,网络带宽升级到 200Gbps,网络转发性能达到 5000 万 PPS。基于 DPU 进一步研发了层级 QoS 能力,保证多租户之间的性能公平和隔离。

基于 DPU 的卸载能力,实现了弹性裸金属实例 BBC 的分钟级创建和删除,只有依托于 DPU 技术才可能高效的管理裸金属产品。

图片

为了更好地满足客户对云上网络的灵活性诉求,我们对虚拟网络的产品和技术进行了全面的升级和重构,实现了虚拟网络 3.0 版本的进阶,更高效地支持企业在云上组网。

网络接入方面,专线接入带宽扩容到百 Tbps 量级,新发布 L2 网关产品,支持云上云下大二层网络的打通。

虚拟网络的规模能力实现了全面提升,单 VPC 支持到 300w 个 IP 地址规模,跨地域带宽和单个实例的服务网卡带宽容量实现了整体提升。

云上网络安全作为企业应用的守护者,也实现了全方位升级。安全防护产品带宽提升至 Tbps 水平,同时能够支持第三方安全设备的接入,满足自定义的安全防护需求。

整体上百度智能云通过虚拟网络 3.0 的全新升级,在弹性、性能、规模和安全等能力上均得到了大幅提升,可以更好的满足企业应用灵活组网的要求。

图片

百度智能云虚拟网络控制器架构基于云原生的设计思想进行了全面的重构,可以更好的满足云原生应用对网络弹性能力的要求。

云原生化的虚拟网络控制器架构主要包括 3 方面的技术改造:通过转发表项的动态学习技术,将 vSwitch 的内存占用降到了最低水平,使得单 VPC 支持的 IP 地址数量达到 300 万个。

通过云原生化声明式架构的设计思想,大幅提升了虚拟网络IP地址和网络设备的创建效率,IP 分配速度提升至 3000 个/秒,最终可以实现分钟级交付 10 万核算力的能力。

图片

虚拟网络 3.0 数据面部分引入了新一代可编程硬件。

传统的可编程芯片存在一定弊端,主要表现在硬件表项不足,私有协议功能弱等问题。

我们通过组合 FPGA、DPU、可编程芯片等多种芯片,研发了新一代软硬一体的可编程网关,形成超快速路径、快速路径、慢速路径三条核心转发平面,进而实现了微秒级报文转发时延、千万级 session 加速、Tb 级接入网关等核心能力,让广大用户享受到超高性能和超稳延迟的网络报文转发能力。

图片

围绕 AI 原生应用场景,百度智能云在数据库和大数据方面做了完整的产品布局。

基于新一代目录树架构技术,进一步提升了云原生数据湖的性能和大数据分析的产品功能。同时我们也发布了自研的向量数据库产品,相比开源版本性能更优,在企业级产品管理能力方面。

百度智能云数据库和大数据产品涵盖数据处理、模型开发、模型训练、推理应用的主流 AI 原生应用场景。

图片

云原生应用产品体系以面向开发者友好为核心思想,我们进行了全系产品升级。

以容器产品为基础,全面加强云原生应用产品的企业级产品特性,简化运维复杂度,做到性能和稳定性的提升,覆盖应用部署、应用可观测和应用可运维的应用全生命周期,释放开发者生产力。

图片

容器产品是云原生的基础,我们围绕容器基础能力进行了全新的设计和优化。

在企业级能力上,全新发布容器集群规格的产品化能力,不同规模的集群关联的配套 IaaS 产品整体交付,实现集群开箱即用。

我们对集群管理核心架构进行了技术重构,集群节点规模提升了 10 倍, 容器网络数据面路径 bypass 了 host 内核协议栈。相比非容器网络情况下,性能损耗降低到 1% 左右。

我们进一步完善集群托管能力,核心控制面组件全部被托管,节点组提供了操作系统升级和维护能力,可以有效降低运维复杂度。

结合 serverless 型容器产品 BCI 可以实现每分钟创建 4000 个容器的能力。

图片

丰富的云上可观测产品矩阵,覆盖从问题发现到问题定位,再到问题解决整个流程,全面提升开发者的自服务能力,可以自助自主的高效解决问题。

问题发现方面,可观测产品的覆盖面和问题分析能力进一步提升。日志服务进行了全面重构,实现了千亿行日志的秒级查询。容器监控丰富了云原生 AI 场景的全栈监控指标。

问题定位方面,包含了容器集群、应用和网络的自助诊断功能。 应用性能诊断和优化工具 Btune 中集成了大量性能优化经验,不仅可以快速定位性能瓶颈,还会输出优化建议并一键完成性能优化。

问题解决方面,进一步丰富了问题解决效率和自动化的运维产品。通过大模型加持的 AI 助手,可以快速生成操作命令。通过运维编排产品,实现千台实例的批量操作,提升运维效率。

图片

新一代核心技术和产品能力的提升,让我们更多的客户享受到了技术的红利。

利用虚拟网络性能的提升,搜广推场景的客户应用服务性能得到 2-3 倍提升。基于百度智能云的弹性能力,满足音视频直播类客户极速扩缩容需求,支持国民 3A 游戏大作的热潮。利用可信计算产品,让应用透明地运行在加密虚机内,保障广大金融类客户数据和模型的安全。

图片

在生成式 AI 的技术浪潮下,百度智能云通过不断强化云原生和 AI 原生的双引擎能力,帮助广大企业加速 AI 原生应用的业务落地,共同迎接 AI 原生的新时代。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1562084.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

国外电商系统开发-运维系统操作脚本

查看脚本内容,只需要点击即可: 执行脚本,请点击 点击了下一步后,可以输出脚本参数,当然你可以可以不输入,直接下一步就行: 现在,点击【下一步】执行开始出初始化脚本: …

信号转导的风暴中心:ERK1/2

前 言 ERK1/2是RAF-MEK-ERK信号通路的关键组成部分,在Thr202、Tyr204位点被磷酸化从而激活,进而激活多种与细胞增殖、分化、迁移和血管生成相关的底物(超过160种)。因此ERK1/2的(Thr202, Tyr204)/(Thr185, Tyr187)磷酸化是ERK激…

【2024最新】基于springboot+vue的人职匹配推荐系统lw+ppt

作者:计算机搬砖家 开发技术:SpringBoot、php、Python、小程序、SSM、Vue、MySQL、JSP、ElementUI等,“文末源码”。 专栏推荐:SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:Java精选实战项…

【最新华为OD机试E卷-支持在线评测】找数字-找等值元素(100分)多语言题解-(Python/C/JavaScript/Java/Cpp)

🍭 大家好这里是春秋招笔试突围 ,一枚热爱算法的程序员 💻 ACM金牌🏅️团队 | 大厂实习经历 | 多年算法竞赛经历 ✨ 本系列打算持续跟新华为OD-E/D卷的多语言AC题解 🧩 大部分包含 Python / C / Javascript / Java / Cpp 多语言代码 👏 感谢大家的订阅➕ 和 喜欢�…

C++多线程的Demo(二)

前言 接上文,这次对C多线程和并发有了一些粗浅的理解,上一篇文章如下: C多线程的Demo(一)_c demo-CSDN博客 详细讲解join()和detach(): 每一个程序至少拥有一个线程,那就是执行main()函数的主线程&#xf…

三步完成Llama3.2在算力魔方的INT4量化和部署|开发者实战

2024年9月25日,Meta又发布了Llama3.2:一个多语言大型语言模型(LLMs)的集合,其中包括: 大语言模型: 1B和3B参数版本,仅接收多种语言文本输入。多模态模型: 11B和90B参数版…

Asahi Linux通过大量变通方法实现在M系列Mac上支持AAA级游戏

如果您正在运行 Asahi Linux 并希望在您的 M 系列 Mac 上玩游戏,那么有一个好消息要告诉您,Asahi Linux 项目将继续推出新功能。 2 月份它在 Mac 上Apple Silicon 实现了OpenGL 4.6 和 OpenGL ES 3.2 兼容,现在又在游戏方面取得了进展。但您可…

JS 分支语句

目录 1. 表达式与语句 1.1 表达式 1.2 语句 1.3 区别 2. 程序三大流控制语句 3. 分支语句 3.1 if 分支语句 3.2 双分支 if 语句 3.3 双分支语句案例 3.3.1 案例一 3.3.2 案例二 3.4 多分支语句 1. 表达式与语句 1.1 表达式 1.2 语句 1.3 区别 2. 程序三大流控制语…

计算机毕业设计 基于Python+Django的旅游景点数据分析与推荐系统的设计与实现 Python毕业设计 Python毕业设计选题【附源码+安装调试】

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

国际数据安全领域新探索:天空卫士参加迪拜渠道大会

2024年9月24日,由中东及北非地区知名分销商Quantum Edge主办的渠道大会在迪拜隆重召开。此次会议汇聚了来自该地区数据安全领域的优秀渠道合作伙伴、技术专家、行业领袖及大学研究机构。天空卫士作为中国数据安全企业,积极参与本次盛会,与国际…

AI阅读文献,这个方法10倍速提升效率还不损失关键信息!

我是娜姐 迪娜学姐 ,一个SCI医学期刊编辑,探索用AI工具提效论文写作和发表。 关于用AI快速读论文,之前娜姐分享过好几款工具,有浏览器插件Kimi、豆包,还有专门的AI工具,如ChatDoc、ChatPDF、SciSpace、Scit…

域名郵箱:注册流程详解及注意事项有哪些?

域名郵箱怎么申请创建?域名郵箱如何设置及优化策略? 域名郵箱已成为企业和个人展示专业形象的重要工具。与普通邮箱相比,域名郵箱不仅更具个性化,还能提升品牌信任度。烽火将详细介绍域名郵箱的注册流程及注意事项,帮…

css 翻页效果

有一个项目&#xff0c;页面切换的时候要翻页效果。 所以有一个简单的demo&#xff0c;提供给大家学习 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdev…

移远通信受邀参展2024中国移动全球合作伙伴大会,以深厚实力全力迎接AI+时代

在中国科技迅速发展的今天&#xff0c;人工智能&#xff08;AI&#xff09;与物联网正在成为推动数字经济变革的重要力量。 为进一步推进AI技术与各领域的融合发展&#xff0c;10月11日至13日&#xff0c;第12届中国移动全球合作伙伴大会在广州市隆重举行&#xff0c;本次大会以…

关于安科瑞ABAT蓄电池在线监测系统的详细介绍-安科瑞 蒋静

蓄电池在线监测系统是一种用于实时监测蓄电池状态并分析其性能的重要设备。该系统通过监测蓄电池的关键参数&#xff0c;如电压、电流、温度、内阻等&#xff0c;对电池的性能和健康状况进行评估&#xff0c;从而及时发现潜在问题并采取相应的维护措施。以下是对蓄电池在线监测…

Linux下多任务编程(网络编程)

前言 本文记录OSI7层模型、TCP\IP模型、socket在UDP、TCP使用。 网络 网络&#xff1a;多个计算机之间相互通信 网络协议&#xff1a;多个计算机之间通信用的语言&#xff08;是有一定规范的&#xff09; OSI 7层模型 应用层 表示层 会话层 传输层 网络层 链路层 物理…

在数字电路实验的测试中,示波器的输入耦合为什么要选用直流耦合?

示波器输入耦合的作用及其在数字电路测试中的选择 概述 示波器是电子工程师进行各种信号测量和分析的关键工具。无论是在模拟电路还是数字电路中&#xff0c;示波器都能提供对信号状态的直观展示。然而&#xff0c;在使用示波器进行测量时&#xff0c;输入耦合的选择至关重要…

搭建Web环境、初识JSP

搭建Web环境、初识JSP 1.B/S架构工作原理 B/S架构采用请求/响应模式进行交互 2.URL 计算机通过统一资源定位符实现资源访问 URL&#xff1a;Uniform Resource Locator的缩写 唯一能识别Internet上具体的计算机、目录或文件夹位置的命名约定 3.Web服务器 Web服务器 是可以向…

电子木鱼解压小程序源码系统 带源代码包以及搭建部署教程 源码开源可二开

系统概述 电子木鱼解压小程序源码系统是一款基于现代Web技术开发的轻量级应用程序&#xff0c;旨在为用户提供一种简单、高效的解压方式。该系统通过模拟传统木鱼的敲击效果&#xff0c;结合优美的音效和动画&#xff0c;帮助用户达到放松身心的效果。同时&#xff0c;系统还提…

基于SSM的朋辈帮扶系统

文未可获取一份本项目的java源码和数据库参考。 一、本课题研究意义 随着市场经济发展的不断深入&#xff0c;高校学生面临着新的问题和挑战。在全球一体化、价值观多元化、信息网络化的大背景下&#xff0c;越来越多的学生承受着来自社会、家庭与自身方方面面的压力&#xf…