KDD 2024论文分享┆STAMP:一种基于时空图神经网络的微服务工作负载预测方法

论文分享简介

本推文详细介绍了一篇最新论文成果《Integrating System State into Spatio Temporal Graph Neural Network for Microservice Workload Prediction》,论文的作者包括:上海交通大学先进网络实验室: 罗旸、高墨涵、余哲梦,高晓沨教授、陈贵海教授;蚂蚁集团:蔡腾纬、葛昊元。该论文已被(KDD 2024)接收。论文提出了一种基于时空图神经网络(STGNN)的微服务工作负载预测方法(STAMP),来动态预测微服务架构下的资源分配,以提高资源利用率和系统性能。通过在支付宝平台的微服务环境以及两个真实世界数据集上的实验比较,验证了STAMP在预测精度上相较于现有先进时序预测方法平均提高了5.72%。在支付宝云平台的真实线上测试表明 ,STAMP相比现有线上方法能够降低33.10%的计算资源消耗。

原文链接https://dl.acm.org/doi/10.1145/3637528.3671508

1. 会议介绍

第30届国际知识发现与数据挖掘大会(KDD 2024)于2024年8月25日至29日在西班牙巴塞罗那隆重举行。KDD会议起始于1989年,由ACM的数据挖掘及知识发现专委会(ACM SIGKDD)组织,是数据挖掘领域的旗舰学术会议。大会涵盖了数据挖掘、知识发现、数据科学、预测分析等多个技术领域。KDD 2024不仅是学术界的重要事件,也是工业界关注的焦点,吸引了来自全球的顶尖学者、企业代表参与。KDD会议在中国计算机学会(CCF)的推荐中被列为A类顶尖学术会议。

2. 研究背景及主要贡献

在云计算领域,资源利用率的优化一直是提升效率和降低成本的关键。尤其是在微服务架构中,资源分配的不灵活性导致了CPU资源的普遍低效利用。例如Google Cluster Trace数据中的平均CPU利用率不足50%,而支付宝平台的CPU利用率也仅在20%左右。这种低效率不仅限制了系统的性能,也增加了运营成本。为了解决这一问题,论文提出了一种新的微服务工作负载预测方法,旨在通过预测工作负载的变化来动态调整资源分配,从而提高资源利用率。 在支付宝云平台的实践中,论文发现了不同微服务之间的联系:由于用户的访问模式相同,不同微服务的工作负载模式可能趋近相同,如图一所示。

图一:支付宝云平台微服务架构示意图

现有工作负载预测方法,尤其是多变量时间序列预测模型,虽然在一定程度上考虑了工作负载之间的相互依赖性,但往往没有显式地建模微服务间的结构性联系。这种结构性联系对于理解微服务之间的复杂交互和工作负载模式至关重要。为了弥补这一缺陷,论文的主要贡献包括:

1 论文提出了一种新的微服务工作负载预测框架STAMP,该框架通过构建基于图的表示来显式地建模微服务之间的结构性联系,从而更准确地捕捉工作负载的动态变化。

2 STAMP通过整合系统状态信息,进一步增强了对工作负载变化的预测能力。这种方法不仅考虑了工作负载的相似性,还考虑了系统状态对资源利用的影响。

3 论文的实证分析表明,STAMP在提高预测精度方面具有显著优势,与现有方法相比,平均提高了5.72%的预测精度,并且在支付宝平台的实际部署中,实现了资源消耗的33.10%降低。

3. 方法

图二: STAMP 整体架构

如图二所示:STAMP框架通过针对性建模微服务的相似性、系统状态的关联性以及时间模式的动态性,提供了一种全面的工作负载预测方法。以下是STAMP的详细工作流程:

1.相似性建模:此模块的目的是捕捉微服务之间的复杂交互和相似性。论文首先将工作负载序列与系统状态输入到该模块中。利用图神经网络,微服务被映射为图中的节点,节点间的边权重根据工作负载和系统状态动态生成,构建出多个图。这些图通过注意力机制融合,形成一个综合的相似性图,从而为模型提供了丰富的结构化信息。图卷积的使用进一步增强了模型对微服务间相似性的理解。

2.系统状态建模:设计此模块的目的是为了理解并整合系统状态变化对微服务工作负载的影响。系统状态指标,例如CPU利用率和响应时间,被集成到工作负载的表示中。这确保了模型能够识别系统状态如何影响服务的工作负载,从而提高预测的准确性和可靠性。

3.动态时间模式建模:此模块的目的是捕捉工作负载随时间变化的周期性和趋势。通过应用快速傅立叶变换(FFT),模型能够识别和提取工作负载数据中的周期性模式。这种对时间动态性的建模对于预测工作负载的未来变化至关重要,因为它允许模型学习到工作负载的长期依赖性。

4.多视图对比学习:最后一个模块的目的是筛选出对工作负载预测最有用的系统状态信息。通过构建包含和不包含系统状态信息的两种视图,模型通过对比学习识别出对预测最为关键的系统状态特征。这种机制帮助模型排除噪声,专注于对预测工作负载变化最有效的信息,从而提高整体预测性能。

通过这四个精心设计的步骤,STAMP框架能够全面地理解和预测微服务的工作负载变化,为微服务架构中的资源管理和优化提供了强有力的支持。

4. 实验结果及可视化

1)实验数据集: 论文的实验基于三个真实世界的数据集:支付宝平台的微服务工作负载数据集(Ant)、阿里巴巴集群追踪数据集(Ali )和Kubernetes容器工作负载数据集(Fisher)。这些数据集覆盖了不同的微服务架构和运营条件,为论文的模型评估提供了全面的测试环境。

2)基线对比:为了评估STAMP的性能,论文将其与多种现有的工作负载预测方法进行了比较,包括传统的统计模型(如ARIMA和Prophet)、多变量时间序列预测模型(如FEDformer、Pyraformer、PatchTST等),以及基于时空图神经网络的模型(如MTGNN、ST-HSL、ST-SSL等)。这些基线方法代表了当前微服务工作负载预测领域的先进水平。

表一:STAMP预测结果对比

3)对比实验 :在对比实验中,如表一所示,STAMP在所有数据集上均展现出了优越的预测性能。具体来说,在支付宝平台的数据集上,STAMP的RMSE比最接近的基线低5.72%,MAE低3.89%。这些结果表明,STAMP能够有效地捕捉微服务工作负载的动态变化,并提供更准确的预测。论文的结果与文中的结论一致,证明了STAMP在微服务工作负载预测方面的有效性和优越性。

4)消融实验:论文进行了消融实验来评估STAMP中各个组件的贡献。实验结果如图三所示,图相似性编码模块、系统状态建模模块、动态时间模式编码模块和多视图对比学习模块都是提高预测精度的关键因素。特别是,多视图对比学习模块在去除无关系统状态信息和提高预测准确性方面起到了重要作用。

图三:消融实验结果

5)线上实验:在支付宝平台的线上A/B测试中,STAMP在实际微服务环境中展现了其预测和资源优化的能力。与现有在线方法相比,STAMP实现了33.10%的资源消耗降低,同时在98.16%的情况下成功避免了CPU溢出的风险。这一结果证明了STAMP在实际应用中的可行性和经济效益。

综上所述,STAMP通过其创新的模型架构和算法设计,在微服务工作负载预测方面取得了显著的性能提升,为微服务架构中的资源管理和优化提供了有力的工具。

5. 总结与展望

论文提出的STAMP框架,针对微服务架构中的工作负载预测问题,通过集成图神经网络和多视图对比学习,有效地提高了预测的准确性。实验结果证明了STAMP在多个真实世界数据集上的优势,特别是在资源利用率提升和成本节约方面的潜力。尽管STAMP已经展现出了显著的性能提升,但论文认为在云服务领域,尤其是针对GPU服务的优化,仍有广阔的探索空间。未来的工作将集中在提高模型的适应性、实时性和可扩展性,以应对日益复杂的服务需求和不断增长的服务规模。 

展望未来,论文计划进一步研究如何将STAMP应用于更广泛的云服务场景,包括不同类型和规模的微服务。此外,论文也将探索STAMP在多租户环境中的表现,以及如何与其他资源管理策略相结合,以实现更优的资源分配和服务质量保证。论文相信,通过持续的研究和优化,STAMP将为云服务提供更高效、更智能的资源管理解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143005.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

AI编程的特点及SCSAI平台在AI编程方面的一些思路

团长团 AI智造AI编程 2024年09月18日 18:25 北京 说先来看看AI编程的优缺点,然后我们再看看SCSAI在AI编程方面的一些可能选择 使用AI编程的优点 ‌AI编程的优点包括提升编程效率、降低编程门槛、优化程序结构、加强软件可靠性、促进跨领域融合,而缺点则…

supermap iclient3d for cesium中的平移,旋转

昨天写的模型机头不是速度的方向 基础知识 屏幕坐标系,笛卡尔空间直角坐标系,大地坐标系 平移和旋转都是基于笛卡尔空间直角坐标系,也就是基于地心。但是我们想实现模型的旋转是基于模型的局部坐标系,那么就要坐标转换。 向量归…

秒懂C++之特殊类设计

目录 设计一个类,不能被拷贝 设计一个类,只能在堆上创建对象 设计一个类,只能在栈上创建对象 设计一个类,无法被继承 设计一个类,只能创建一个对象(单例模式) 饿汉模式 懒汉模式 设计一个类,不能被拷…

从数据仓库到数据中台再到数据飞轮:我了解的数据技术进化史

这里写目录标题 前言数据仓库:数据整合的起点数据中台:数据共享的桥梁数据飞轮:业务与数据的双向驱动结语 前言 在当今这个数据驱动的时代,企业发展离不开对数据的深度挖掘和高效利用。从最初的数据仓库,到后来的数据…

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾|冯佳时 编辑 |蔡芳芳 近年来,大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而,LLMs 在理解和生成自然信号(例如图像,视频)等,还处在比较早期的探索阶段。为…

单例模式(饿汉式-懒汉式)

我给面试官讲解了单例模式后,他对我竖起了大拇指!https://blog.csdn.net/weixin_41949328/article/details/107296517?ops_request_misc%257B%2522request%255Fid%2522%253A%2522FAEE9ABD-432D-416C-98C6-9DD939138DEB%2522%252C%2522scm%2522%253A%252…

HTML中的文字/分区标记/特殊符号

1.font标记&#xff1a;用来设置文字的字体&#xff0c;大小&#xff0c;颜色&#xff0c;等属性 <!--font:font标记用来设置字体大小颜色属性size:设置字号&#xff0c;默认是3号&#xff0c;1表示4号&#xff0c;-1表示2号&#xff0c;取值范围是[1,7]或[-7,-1]color:设置…

【Manim】用manim描述二次曲面——上

二次曲面是可以化为一般形式的任意方程的图形 这里面A,...,J是常数。我们不可能把它们都列出来&#xff0c;但是有一些标准方程所以这里是一些更常见的二次曲面的列表。 1. 椭球体 这是椭球体的一般方程。。 这是一个典型椭球体的草图。 接下来我们用Manim实现该椭球体的绘制…

【CanMV K230 AI视觉】 人脸识别

【CanMV K230 AI视觉】 人脸识别 人脸识别 动态测试效果可以去下面网站自己看。&#xff09; B站视频链接&#xff1a;已做成合集 抖音链接&#xff1a;已做成合集 人脸识别 前面学习过的人脸检测&#xff0c;只检测出人脸&#xff0c;而本实验要做的人脸识别&#xff0c;会学…

嵌入式人工智能项目及人工智能应用项目——大合集列表查阅

本文的项目合集列表可能更新不及时&#xff08;会及时更新&#xff09;&#xff0c;可查阅实时更新的链接如下。 嵌入式人工智能及人工智能应用项目合集实时更新链接如下&#xff1a; 阿齐嵌入式人工智能及人工智能应用项目合集 (kdocs.cn)https://www.kdocs.cn/l/cc97tuieys4…

Python urllib

Python urllib 库用于操作网页 URL&#xff0c;并对网页的内容进行抓取处理。 本文主要介绍 Python3 的 urllib。 urllib 包 包含以下几个模块&#xff1a; urllib.request - 打开和读取 URL。urllib.error - 包含 urllib.request 抛出的异常。urllib.parse - 解析 URL。url…

心觉:不能成事的根本原因

很多人一直都很努力&#xff0c;每天都很忙 每天都学习很多东西&#xff0c;学习各种道&#xff0c;各种方法论 但是许多年过去了依然一事无成 自己的目标没有达成&#xff0c;梦想没有实现 为什么呢 关键是没有开悟 那么什么是开悟呢 现在很多人都在讲开悟 貌似开悟很…

回收站永久删除的文件还能恢复吗?教你恢复技巧

在数字时代&#xff0c;电脑是我们工作、学习和娱乐的重要工具。然而&#xff0c;随着我们对电脑的频繁使用&#xff0c;误删文件的情况也时有发生。当我们在回收站中不小心永久删除了某个重要文件时&#xff0c;内心可能会充满焦虑和疑惑&#xff1a;这些文件还能恢复吗&#…

基于springboot+vue实现的智能垃圾分类系统 (源码+L文+ppt)4-063

摘 要 本论文主要完成不同用户的权限划分&#xff0c;不同用户具有不同权限的操作功能&#xff0c;系统包括用户、物业和管理员模块&#xff0c;主要功能有用户、物业、垃圾站点、垃圾投放、验收信息、积分商城、积分充值、通知物业等管理操作。 关键词&#xff1a;智能垃圾…

【LLM】中国在 GPT/LLM 大模型上是否已经实现了弯道超车?

还是谈一下现状吧。中国的大模型公司与美国的大模型公司其实在数量上可能中国更多一些吧。 美国的 OpenAI&#xff1a;No.1&#xff0c;毫无疑问&#xff01;Google&#xff1a;尽管落了&#xff0c;但是依然是全球第二的实力吧&#xff1f;Meta&#xff1a;开源全靠它家的Ll…

【代码随想录训练营第42期 Day60打卡 - 图论Part10 - Bellman_ford算法系列运用

目录 一、Bellman_ford算法的应用 二、题目与题解 题目一&#xff1a;卡码网 94. 城市间货物运输 I 题目链接 题解&#xff1a;队列优化Bellman-Ford算法&#xff08;SPFA&#xff09; 题目二&#xff1a;卡码网 95. 城市间货物运输 II 题目链接 题解&#xff1a; 队列优…

Untangle电脑上网行为管理软件有哪些?(一口气看完,第一款建议收藏!)

控制上网的软件通常被称为上网行为管理软件或上网行为监控软件。 这类软件主要用于管理网络用户的上网行为&#xff0c;帮助企业或组织提升网络使用效率和工作效率&#xff0c;同时最大限度地避免不当上网行为带来的潜在风险和损失。 以下是一些值得推荐的电脑上网行为管理软件…

【C++】——继承与虚继承

文章目录 继承继承的概念继承的定义继承类模版基类与派生类的赋值转换继承的作用域派生类的默认成员函数构造函数与析构函数拷贝构造 不能被继承的类继承与友元继承与静态成员多继承与菱形继承 虚继承继承与组合 继承 什么是继承&#xff1f; 继承其实就是胆码复用的一种手段&…

江科大笔记—OLED显示屏

OLED显示屏 OLED的GND接到负极&#xff0c;OLED的VCC接正极&#xff0c;同时也会接到stm32上的PB6和PB7 SCL接PB8 SDA接PB9 在Hardware文件夹里面放3个文件&#xff1a;OLED.c、OLED.h、OLED_Font.h OLED_Font.h:存的是OLED的字库数据&#xff0c;因OLED是不带字库的&#xf…

APP测试--含【学车不】项目实战

本文参考黑马程序员以下课程; 1-002-App应用架构_哔哩哔哩_bilibili 1. APP环境 1.1 app应用系统架构 json是一种轻量级的数据交换格式&#xff0c;采用完全独立于编程语言的文本格式来储存和表示数据 1.2 app 后台开发测试环境 预发布环境&#xff1a; 使用后端的测试代码&a…