AI 基础设施:构建AI时代全栈云计算体系

生成式AI 新时代下催生新的基础设施需求

        随着企业在数字化转型之路上越走越远,期间一场新的技术革命正在发生,近几年涌现的生成式AI技术正在迅速改变科技、商业和整个社会的格局。这种强大的技术能够从数据中学习并生成预测性输出,生成式 AI 既是未来的趋势,也是一场实时颠覆各行各业的革命。

        生成式 AI 的出现正在迅速推动从医疗和金融,到娱乐和教育等各个领域的创新。通过自动执行例行任务和生成内容,这些 AI 模型可显著提高效率,降低运营成本,并为用户互动开辟新途径。例如,生成式 AI 可帮助根据用户偏好创建个性化数字内容、通过自然语言生成代码,或轻松地总结信息并提供相关背景来帮助团队更快地制定决策。

        将生成式 AI 技术全面整合到企业业务中,可以显著改变企业的运营和竞争方式,让企业能够发挥创新型解决方案的价值、实现流程自动化、改进决策过程并提供个性化客户体验。

        然而,与任何技术革命一样,实施这种强大的 AI 模型本身也面临着挑战。传统计算基础设施是为前 AI 时代构建的,无法提供这些 AI 模型所需的计算资源和可伸缩性。为了满足指数级增长的计算需求,最新迭代的 AI 模型需要完全不同的架构。

        由于拥有数十亿个参数和庞大的训练数据集,生成式 AI和 LLM 需要的计算资源达到前所未有的规模。这需要更强的处理能力、更快的内存、更大的存储空间和极其快速的网络连接,而传统基础设施的能力却难以达到。为了支持这些高级模型,专门构建的基础设施有助于确保充分发挥生成式 AI 的强大能力,提供它们所需的高性能和强大的计算能力。此外,利用这种基础设施,组织还能高效地扩缩 AI 计划,使组织能够适应不断变化的业务需求,并在充满活力的 AI 领域抓住新机遇。

AI基础设施:生成式 AI 的支柱

        支撑生成式 AI 解决方案的基础设施是可靠、高效的 AI 运营的基石。相对传统基础设施提出了一些新的要求。

成本:如何优先考虑成本效益

        成功的 AI 基础设施战略必须优先考虑成本效益。由于生成式 AI 模型和 LLM 需要大量资源进行训练和开发,如果没有精心规划和托管式的基础设施,这些成本很快就会失控。选择合适的云提供商、优化资源利用率并利用 AI 专用工具和功能,可以大大降低这些成本,同时确保 AI 模型高效运行。如果对 AI 优化型基础设施的投资力度不足,组织面临的机会成本可能会非常高,进而导致产品性能低下、扩缩困难和错失良机

性能:如何提高速度和效率

        现代工作负载的增长速度已经超过现有本地基础设施的发展速度,而摩尔定律逐渐开始失效,仅靠硬件已无法满足需求。您需要一种适应性强和软件定义的基础设施方法,全面优化堆栈的每一层,而不是接受局限性。对于数据驱动型公司,解决方案就是为高效满足激增的工作负载需求而设计的灵活云平台。

可伸缩性:如何为增长铺平道路

        在快速发展的 AI 世界,可伸缩性很关键。AI 模型在不断增长,有些模型的参数预计将超过数千亿个。这些模型将需要几十 ExaFLOP (1018 FLOP) 的 AI 超级计算能力,以便将训练时间缩短为几周或更短。要实现这一性能,将需要数以万计的加速器高效地协同工作。但事实证明,传统的扩缩解决方案往往不足以满足需求,需要复杂的手动调优,导致性能不够理想。为了避免这些问题并充分发挥生成式 AI 的强大潜力,找到一种能根据 AI 需求进行无缝扩缩的基础设施解决方案就变得至关重要了。利用云端解决方案可以提供必要的可伸缩性,同时确保成本效益和高性能。

轻松驾驭生成式 AI 部署:帮助取得成功关键步骤

1. 评估计算需求:

生成式 AI 需要很高的 GPU/TPU 性能,因此应估算工作负载需求,以确保有足够的容量。

2. 评估数据流水线:

高质量数据对于训练生成模型至关重要。审核数据源、ETL 流程、标签等。

3. 实施 MLOps:

为了构建、部署和监控生成式 AI 模型,需要制定MLOps 流程,如版本控制、实验跟踪和模型监控。

4. 评估模型风险:

生成模型存在偏见、恶意和幻觉等风险。通过测试和监控实施安全措施。

5. 评估AI伦理;

考虑生成模型的潜在危害,并通过伦理审查程序减轻危害。

6. 审核安全状况;

生成模型会带来安全风险。审核 IAM、网络安全、用户身份验证和访问权限控制。

7. 规划可伸缩性:

设计可快速扩缩计算、存储空间和网络等资源的基础设施,以满足不断增长的需求。

8. 启用协作功能:

生成式 AI 需要数据科学家、工程师、业务团队和技术主管之间的通力协作。确保工具已准备就绪。

9.考虑平台:

例如基于Google Cloud ,利用 Vertex AI 等云端 AI 平台,借助 Google Cloud 及其合作伙伴生态系统提供的预训练模型加速开发。

10. 制定 Responsible AI 原则:

根据组织的价值观,制定并落实一系列负责任的原则。

11. 投资于技能培养:

赞助 MLOps、提示工程和有关生成式 AI 的学习路径的培训,以提高员工的熟练度。

构建AI时代全栈云计算体系

        在成功确定并解决关键的基础设施要求后,重点就要转移到 AI 平台的选择上。作为一个中间层,这一关键层不仅能与现有基础设施无缝集成,还能提供对高级 AI 模型和工具的必要访问权限,这对有效的训练和推理至关重要。AI 平台的选择不仅是一项技术决策,更是一项战略决策,将直接影响 AI 项目的敏捷性和适应性。无效的 AI 平台会导致成本超支、模型缺陷和竞争优势下降。

        基于AI 基础设施&AI平台构建统一的工具集。研发团队无需将不同的工具组合在一起,因而可以避免浪费大量时间,也省去了许多麻烦,这将简化从想法、训练到部署的 AI 之旅。例如:通过在 Google Kubernetes Engine (GKE) 和 Compute Engine 以及 Google Cloud TPU 基础设施上配置和部署 AI 模型,团队能够加快最新基础模型的大规模训练和推理,同时享受自动扩缩、工作负载编排和自动升级支持。”

        在灵活且可伸缩的环境中,AI模型会蓬勃发展,而虚拟机 (VM) 和容器等解决方案提供了可定制和可优化的平台来运行生成式 AI 工作负载。 借助 Compute Engine 的可伸缩虚拟机,您的数据科学团队可以在数秒内启动专为大规模模型训练定制的环境。而GKE 的 动态容器有助于在混合、多云和边缘环境 中无缝部署资源需求量大的模型。TPU 等专用 AI 基础设施通过并行处理和张量计算,优化和加速机器学习工作负载的处理。

        例如,Google Cloud 使用超过5万个TPU v5e 芯片,为适用于大语言模型的全 球最大的分布式训练作业提供了支持,这些芯片能够实现 10 exa-FLOP(16 位)或 20 exa-OP(8 位)的总峰值性能。

如何为生成式 AI 选择合适的工具?

        就生成式 AI 而言,虚拟机和容器都可以发挥一定的作用,如何选择取决于我们应用场景的具体情况。例如,如果您正在处理高度敏感的数据,可能更需要虚拟机出色的隔离性。而对于有许多重复任务的大规模部署,或需要动态快速扩展或缩减的应用,可能更需要容器的轻量和可扩缩特性。 是选择虚拟机还是容器取决于在安全性、隔离、资源利用率和可伸缩性方面的具体需求。某些情况下,同时包含虚拟机和容器的混合解决方案可能是最优选择。了解这些考量因素将有助于指导您做出决定,并高效高质地实现生成式 AI 部署。        

虚拟机: 计算的组成要素

        虚拟机模拟物理计算机,每个虚拟机都有自己的操作系统 (OS) 和资源。虚拟机具有高 度可控性,非常适合运行需要特定操作系统或硬件配置的应用。 虚拟机的主要优势之一是具有良好的隔离性。每个虚拟机都是独立运行的,它们通过 隔离应用及其依赖项来提供额外的安全保障。这使虚拟机非常适合运行具有多个依赖 项的大型复杂应用。

容器: 轻量级替代方案

        容器是一种更轻量级的计算选择。它们将代码及其依赖项封装在一起,这样应用就能在不同计算环境之间快速、可靠地运行。与虚拟机不同,多个容器可以运行在同一个操作系统内核上,从而共享资源并减少开销。容器的优势是其可携性和效率。它们几乎可以立即启动,使用更少的资源,而且可以随处运行,因此非常适合基于微服务的应用或在不同环境中部署应用。 虽然容器共享主机内核,但这种灵活性有利于为特定应用定制安全配置和资源分配。

加速器:动力助推器

        生成式AI 加速器(如 GPU 和 TPU 芯片)经过优化,可执行高强度并行处理,满足深度 学习、调优和 AI 推理的需求,而这些从来不是 CPU 的设计用途。GPU 和 TPU 可显著 缩减与计算密集型生成式 AI 工作负载相关的时间和成本。 无论是部署本地服务器,还是利用云端加速器实例,集成高性能硬件加速器对于大规 模实施生成式 AI 都至关重要。

数据: 生成式 AI 的基础

        数据库是生成式 AI 的基础,用于存储和检索大量数据。数据库的选 择会影响 AI 的性能、可伸缩性和可靠性。 Google Cloud的BigQuery 是一个可靠、灵活的全托管式数据仓 库。它可以实现速度超快的 SQL 查询和大型数据集的实时分析,是生成式 AI 的理想选择。 在选择数据库时,需要考虑诸多因素,例如与 AI 框架的兼容性、 高负载场景下的性能、结构化和非结构化数据的处理,以及安全措施等。

网络组建和管理:数据流水线

        采用以服务为中心、任意 (any-to-any) 互连的网络组建和管理方式 是部署生成式 AI 的重要架构考虑因素。为了优化 AI 算法效率,理想做法是选择一项能够提供高性能、低延迟互连,跨多个云实现一流应用服务的云服务。为了应对这一挑战,Google Cloud 推出了 Cross-Cloud Network 等专用网络组建和管理功能,来提供可靠的高吞吐量。Cross-Cloud Network 是一个开放、安全且针对本地和云端的应用和用户进行了优化的全球网络平台。它使用 Google Cloud 的全球级网络来实现多云连接,并保护应用和用户。 随着生成式 AI 模型的规模和复杂性不断增加,检查并解决网络连接 的限制和意外情况有助于确保基础设施的可伸缩性。

运营: AI 系统的检测信号

        运营工具对于 AI 系统的日常运行至关重要。这些工具有助于监控、管理、维护 和优化 AI 解决方案的性能,提供有关系统行为的见解,并在潜在问题愈演愈烈之前发出提醒。这种时刻保持警惕的做法是生成式 AI 系统实现理想输出的关键所在,让您能够及时做出干预和调整,从而使系统以最佳状态运行。 适用于 Google Cloud 的 Gemini 为您的团队提供了一个 AI 赋能的协作者, 用于快速进行问题排查,通过对话协助调试代码,并充当最佳实践方面的主题专家。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1540791.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

使用chatgpt降低论文重复率的方法和需要注意的一些细节

学境思源,一键生成论文初稿: AcademicIdeas - 学境思源AI论文写作 要降低论文的重复率,可以借助ChatGPT进行多种方式的优化。以下是几种策略: 1. 重写段落或句子: 输入你认为可能重复率较高的段落或句子,…

前端JavaScript导出excel,并用excel分析数据,使用SheetJS导出excel

前言:哈喽,大家好,今天给大家分享今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 &#x1f…

Windows通过网线传文件

文章目录 网线网络中看不到另一台计算机Nginx参考文献 网线 两台电脑用网线连接 电脑A 控制面板\网络和 Internet\网络和共享中心 → 更改适配器设置 → 右键以太网(未识别的网络) → 属性 → Internet 协议版本 4 (TCP/IPv4) 属性 → 使用下面的 IP …

SQL编程题复习(24/9/19)

练习题 x25 10-145 查询S001学生选修而S003学生未选修的课程(MSSQL)10-146 检索出 sc表中至少选修了’C001’与’C002’课程的学生学号10-147 查询平均分高于60分的课程(MSSQL)10-148 检索C002号课程的成绩最高的二人学号&#xf…

en造数据结构与算法C# 群组行为优化 和 头鸟控制

实现: 1.给鸟类随机播放随机动画使得每一只鸟扇翅膀的频率都不尽相同 2.可以自行添加权重,并在最后 sumForce separationForce cohesionForce alignmentForce;分别乘上相应权重,这样鸟就能快速飞行和转向辣 using System.Collections.Ge…

小程序地图展示poi帖子点击可跳转

小程序地图展示poi帖子点击可跳转 是类似于小红书地图功能的需求 缺点 一个帖子只能有一个点击事件,不适合太复杂的功能,因为一个markers只有一个回调回调中只有markerId可以使用。 需求介绍 页面有地图入口,点开可打开地图界面地图上展…

安全热点问题

安全热点问题 1.DDOS2.补丁管理3.堡垒机管理4.加密机管理 1.DDOS 分布式拒绝服务攻击,是指黑客通过控制由多个肉鸡或服务器组成的僵尸网络,向目标发送大量看似合法的请求,从而占用大量网络资源使网络瘫痪,阻止用户对网络资源的正…

[Unity Demo]从零开始制作空洞骑士Hollow Knight第六集:制作小骑士完整的跳跃落地行为

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、制作一个完整的小骑士跳跃落地行为 1.制作动画以及UNITY编辑器编辑2.使用代码实现完整的跳跃落地行为控制3.更多要考虑到的点总结 前言 大家好久不见&…

基于MTL的多任务视频推荐系统

多任务学习,也就是MTL(Multi-task Learning),现在已经被用在很多领域了,比如处理自然语言、搞计算机视觉,还有语音识别这些领域。MTL在大规模的推荐系统里也玩得挺溜,尤其是那些做视频推荐的大家伙。 MTL的玩法就是&a…

NLP 主要语言模型分类

文章目录 ngram自回归语言模型TransformerGPTBERT(2018年提出)基于 Transformer 架构的预训练模型特点应用基于 transformer(2017年提出,attention is all you need)堆叠层数与原transformer 的差异bert transformer 层…

浅谈穷举法

穷举法 穷举法是一种通过逐一列举所有可能情况来寻找解决方案的方法。就像找到一把钥匙打开一把锁,我们会尝试每一把钥匙直到找到正确的那一把。比如,如果你忘记了自己的密码,可以尝试每一种可能的组合直到找到正确的密码为止 穷举法的结构 …

【Python】快速判断两个commit 是否存在cherry-pick 关系

判断两个提交是否有 cherry-pick 关系的 Python 脚本,可以基于以下三种常见情况进行优化: Commit Hash 一致:如果两个提交的 hash 完全相同,那么它们是相同的提交。 Commit Title 存在关联:如果两个提交的 commit mes…

如何下载ComfyUI开发版

看B站视频,见用绘世可以下载ComfyUI开发版,而我又不想在电脑里放太多东西,于是研究了一下,如何直接从GitHub网站下载。具体步骤看图示。 看压缩包内容,应该直接解压覆盖就可以了,暂未有时间测试。

科研绘图系列:R语言散点图和小提琴图(scatter plot violin plot)

文章目录 介绍加载R包导入数据数据预处理函数画图系统信息介绍 提取模型的结果并对模型的结果进行可视化。 加载R包 library(ggplot2) library(ggridges) library(patchwork) library(party) library(caret) library(dplyr

堆的向下调整算法和TOPK问题

目录 1.什么是堆? 1.1 向下调整建堆的时间复杂度计算 1.2 堆的结构体设计 2.堆的功能实现: 2.1 堆的插入: 2.2 堆的删除: 2.3 堆排序: 2.4 向下调整建堆: 2.5 TOPK问题: 2.6 向上调整算…

【Unity踩坑】UI Image的fillAmount不起作用

在游戏场景中,我们经常在界面上展示进度条,当然有各种形状的,线性的,长方形的,圆形,环形等等。 Unity中实现这种效果的话,最基本的方法说是改变Image的fillAmout属性。 如果你是初次使用UI Ima…

ubuntu安装SFML库+QT使用SFML库播放声音

(1)ubuntu安装SFML库 sudo apt-get install libsfml-dev (2)QT使用SFML库播放声音 在.pro文件中添加头文件路径和库文件路径 INCLUDEPATH /usr/include/SFML LIBS /usr/lib/x86_64-linux-gnu/libsfml*.so UI界面中创建一个pushbutton按钮,并且创建槽函数 加载…

国外大带宽服务器怎么连接

随着互联网技术的发展,企业和个人用户越来越依赖于高速的数据传输服务。国外的大带宽服务器因其高速度、稳定性及较低延迟等优势,成为了许多跨国公司、网站托管商以及数据密集型应用的选择。以下是连接国外大带宽服务器的一些常见方法及其注意事项。 选择…

STL-常用算法 遍历/查找/排序/拷贝和替换/算数生成/集合算法

STL常用算法 常用的遍历算法 for_each #define _CRT_SECURE_NO_WARNINGS #include<iostream> using namespace std; #include<vector> #include<algorithm>void myPrint(int v) {cout << v << " "; }class MyPrint { public:void op…