重磅!阿里云可观测产品家族全新升级,AI +数据双驱动,打造全栈可观测体系

引言:

近日,阿里云可观测产品家族正式发布云监控 2.0,隶属产品日志服务 SLS、云监控 CMS、应用实时监控服务 ARMS 迎来重磅升级。借助全新升级的一站式全景接入、统一观测图谱以及 AI 增强的跨域智能洞察能力。同时,为了帮助企业与开发者更从容地面对 AI 创新,阿里云正式发布开箱即用的 AI-native 应用全栈可观测方案。此外,阿里云推出可观测中文社区等系列新举措,让开发者能够更好地享受可观测技术的普及与应用。

随着 AI-native 时代来临,企业可观测性(Observability)需求愈发旺盛与丰富,在服务万家企业过程中,阿里云看到以下几个核心可观测诉求:

首先,Cloud-native、AI-native 应用不断演进,数据处理方式与技术架构发生天翻地覆的变化,这导致应用生成的日志、指标和链路等可观测数据,数据规模指数级增长且结构复杂度剧增。如何高效地收集、存储、分析并从中提取有价值的信息,成为可观测性的首要挑战。

其次,应用部署所需的基础设施愈发多元,其中包括云服务、边缘计算、混合云环境等,异构环境集成与管理增加了可观测性的难度。企业需要跨平台、跨语言的可观测性方案来观测与管理这些分散的应用。

再次,用户体验、应用性能、资源管理成为行业竞争力的焦点,如何实现数据的实时处理和分析,以及基于 AI 的智能预警与根因分析,提前发现并解决问题,成为企业积极探索的核心场景,实时性与智能化的可观测诊断能力成为刚需。

最后,维护高水准的可观测性体系往往伴随一定 IT 成本,在保证运维效率与质量的同时,如何合理控制成本,也是运维团队需要面对的问题。

基于以上挑战,阿里云可观测家族带来众多产品升级,旨在帮助企业在 AI-native 时代以更智能、更高效、更低成本的方式构建全栈可观测体系,为业务稳定性与安全性保驾护航。

应用实时监控服务 ARMS - 端到端全链路应用可观测再进化

面对越来越复杂的应用架构,越来越严格的用户体验要求,运维团队期望有更高价值的端到端全链路可观测解决方案,从而带来直接的业务价值提升。围绕「应用可观测」这一核心业务挑战,应用实时监控服务 ARMS 从四个方面进行全面升级:

(1)覆盖更丰富的应用开发语言与应用形态

在终端应用可观测方面,ARMS 用户体验监控(RUM)实现主流终端类型的 99% 覆盖,包括移动端 APP、小程序,PC 端应用、Web 站点等。在服务端应用可观测方面,ARMS 应用监控(APM)持续深耕 Java 应用场景之外,本次正式发布自研 Golang Agent 与 Python Agent,在数据采集丰富度、数据分析能力等方面,远超行业相关开源项目及工具。

(2)更具业务价值的端到端全链路打通

长久以来,用户终端、网关、服务端的全链路打通一直是故障定位过程中的难题。本次 ARMS 产品能力升级,RUM 终端应用支持全链路追踪能力,并打通常见 Ingress 网关,包括应用型负载均衡 ALB、MSE 云原生网关和 Nginx Ingress。实现从终端到网关,再到服务端的全链路追踪能力。同时,调用链全面拥抱 OpenTelemetry 生态,遵循标准的开源协议和数据格式,方便企业进行集成与二次开发。

(3)更加高效的数据链接

随着可观测数据类型愈发丰富、应用场景愈发复杂,实现跨观测对象的数据关联成为挖掘更多数据价值的关键。ARMS 在实现指标(Metric)、链路(Trace)和日志(Log)关联查询分析的同时,这次以应用为中心,向上链接用户体验、向下链接基础设施的完整数据图谱,真正做到“只要有链接就能关联查询对应的可观测数据。”

(4)AI 加持提效故障定位与根因分析

AIOps 成为今年众多企业积极探索的应用领域,ARMS 将原有的单应用异常巡检和根因定位全面升级,范围扩大到所有关联应用,做到将一定周期内所有关联的相同根因的告警进行收敛,并实时计算出告警对象及关联关系,即时提供全局维度影响面分析与最原始的根因报告。此外,ARMS 提供 Copilot 形态,通过生成式 AI 来帮助运维工程师自助分析问题根因的细节性信息,并提供问题修复、优化建议。

云监控助力构建云产品统一观测与洞察

随着越来越多的企业“上云”,可观测成为企业高效使用和管理云资源的重要手段。阿里云云产品可观测能力进一步升级,帮助企业解决建设云产品可观测能力上面临的数据孤岛、难以关联分析、灵活性与实时性不足、缺乏专家经验等挑战。具体来讲阿里云云产品可观测能力升级包括:

(1)一站式接入云产品指标、日志、事件、链路等可观测数据

过往,云产品可观测数据分散在不同产品中,数据接入、分析、告警需要在不同产品中切换配置,底层存储也没有打通。今年云监控推出统一接入中心,实现云产品日志、指标、事件、链路的一键接入,大幅提升云产品可观测数据的接入效率。针对于云上弹性伸缩出来的核心工作负载,无需手动进行接入配置,基于统一接入中心的自动服务发现能力能够实现快速的可观测时间接入。

(2)基于统一存储与观测图谱,实现云产品与可观测数据的纵横关联分析

在日常运维中,对可观测数据进行关联分析是异常分析场景下进行根因定位的重要手段。“数据没有放到一起”、“观测对象语义模型不同统一”、“观测对象的关系没有自动建立”是工程师进行关联分析的三大阻碍。云监控在云产品接入后会将数据统一存储在阿里云可观测数据平台日志服务 SLS 中,基于定义好的观测图谱统一观测对象的语义模型,并基于云服务部署和调用关系自动构建云产品直接的关系,实现更高效的关联分析,从而更快定位根因。

(3)更多的云产品垂直洞察能力与更全面的可观测分析能力

CloudLens 作为阿里云推出的面向云产品的高阶可观测分析能力,结合阿里云专家经验从可用性、性能、容量、成本、访问分析等多场景、多维度提供丰富的云产品观洞察与异常检测能力。今年 CloudLens 进一步升级,与弹性计算深度集成并即将发布 CloudLens For ECS 和 CloudLens For ACK,同时面向智算场景推出了 CloudLens For AI Infra。除了推出更多的云产品 CloudLens 能力,在 CloudLens 能力本身,我们也从整合了更多更实时的可观测数据帮助用户更深入对云产品进行洞察。

(4)灵活的数据探索能力满足更深入的分析洞察需求

开箱即用的观测能力虽然能够快速对云产品进行洞察,但缺乏一定灵活性,更多用户希望基于底层数据进行自定义与探索来实现符合自身业务特点的观测能力建设,针对于这一点,云监控内置观测分析和告警大盘的底层数据源于用户拥有完全读写权限的日志服务 SLS 存储实现,用户可以基于这些数据进行进一步加工分析,来满足自定义可观测需求。

(5)基于阿里云托管 Prometheus 实现多云统一监控

针对于多云或混合云场景,阿里云提供的托管 Prometheus 服务,完全兼容开源 Prometheus 协议和查询语法,帮助客户构建开放和稳定的多云统一监控系统。云监控与容器服务深度合作,基于 ACK One 舰队快速纳管其他第三方云厂商或 IDC 中心的 Kubernetes 容器集群,并提供基于 Prometheus 的统一容器监控能力。另外,云监控 CMS 将基于 CMN 的能力将线下设备可观测数据统一写入 Prometheus,提高对线下设备的可观测能力。

(6)领域知识加通义大模型结合的可观测 Copilot 帮助用户“用好云”

专家经验的缺失是企业对云产品进行深入可观测的重要挑战之一,随着大模型应用的进一步发展,结合大模型能力使我们在帮助用户解决专家经验缺失的挑战上有了些的解法。云监控进一步升级 Copilot 能力,通过多次 Agent 能力结合实时可观测数据、统一的观测图谱和工单和文档等领域知识,对 Prompt 增强,利用阿里云通义大模型能力辅助用户进行根因定位、智能巡检、辅助分析等多种观测场景,提升运维效率和减少根因定位时间。

打造卓越性能、高效成本、极致稳定的可观测数据平台日志服务 SLS

随着 OpenTelemetry 成为可观测数据事实标准,越来越多厂商支持兼容,推动了数据格式、采集、存储与处理的统一,同时 eBPF 等新技术的应用不断丰富可观测数据类型并增加数据量级,并在 AI 的帮助下,可观测数据分析逐渐向智能化演进。对此,日志服务 SLS 在数据可靠性增强,数据分析性能提高,压降使用成本以及智能化等方面进行了积极探索:

(1)扫描查询分析性能提升 10 倍

针对弱结构化和低频查询场景,SLS 推出扫描查询分析能力,作为 Schema on read 计算模式,通过硬扫实现数据查询分析。经过优化的数据模型和算子下推,扫描性能提升 10 倍,达到 1 GB/s 以上,显著提升查询体验。该功能与索引查询结合,针对高频字段建立索引,以减少扫描数据量和计算成本。

(2)高性能跨 Store 关联查询分析

随着全球经济发展,多地域、全球化成为企业新的业务形态。对此,SLS 推出具备高性能跨 Store 关联查询分析能力的 StoreView。用户无需迁移数据,即可实现不同 Region 和 Project 间的千亿数据关联查询,并创建统一视图进行数据可视化与分析。

(3)全面强化全链路数据处理能力

数据加工作为日志管理的重要组成部分 SLS 全面强化全链路数据处理能力。在数据写入端推出数据写入处理器,可基于用户配置的规则实现数据过滤和规整,有效节省存储空间并降低成本。其次,数据加工性能全面升级,处理性能提升至 TB 级每分钟,采用统一的管道式 SPL 语法,简化使用工作量并降低单 GB 处理成本 60%。最后,针对大数据场景,SLS 的规则消费功能在数据读出前进行数据规整,以满足下游处理引擎对数据 schema 要求,从而节约数据读出量。

(4)更丝滑的开源 Elasticsearch 兼容迁移

SLS 推出 Elasticsearch 兼容方案,解决长期使用开源 Elasticsearch 用户在迁移过程中的仪表盘与配置迁移困难问题。支持 ES DSL 查询语法,用户无需改造,即可将 SLS 作为数据存储计算层,并使用 Kibana / Grafana 进行数据可视化。根据已迁移用户反馈,相较于自建 ES,综合成本降幅可达 30% 以上。结合 SLS 扫描计算模式,进一步降低迁移后的费用。

(5)通义大模型加持多模态数据融合,实现高效智能洞察

基于通义大模型(Qwen 2),SLS 打造适用于日志与指标数据的基础模型,并解决多模态数据融合问题。借助 Umodel 系统将可观测对象之间的关联关系具象化,简化实体观测数据的获取,降低理解门槛。结合场景化垂直模型和数据关联关系,SLS 推出 NL2QL、安全分析、根因分析等智能洞察能力,进一步提升用户在日常运维过程中的工作效率和体验。

持续的开源贡献与投入,让可观测技术普惠至每个开发者

(1)积极参与国际行业标准建设,展现中国开发者风采

在 2019 年,随着 OpenTelemetry 项目成立,越来越多海内外知名企业参与到其建设中,OTel 迅速演变成为可观测数据采集事实标准。秉着“取之于社区,反哺社区”的开源精神,为了满足更多企业需求,阿里云推出 OTel 托管服务,发布 OpenTelemetry Java / Python 探针阿里云发行版的同时,积极探索 Java、Go 、Python 语言应用可观测场景最佳实践,并向社区提交了诸多贡献提案,如 Go 语言编译时注入探针,Java Agent 针对 GraalVM 支持等特性。回顾过往 6 个月,阿里云在 OTel 社区贡献度在亚太地区排名第一。

(2)iLogtail 全面升级为 LoongCollector

在参与国际行业标准建设的同时,阿里云为了帮助开发者构建统一的数据采集层,并助力打造各种上层的可观测数据应用场景,决定将轻量、高性能、高可靠的可观测数据采集器 iLogtail 进行开源。经过十年的技术积累及两年的开源建设,iLogtail 已拥有千万级安装规模,这其中包括同程旅游、滴滴出行、小红书、石墨文档等各行业标杆企业。在众多企业的共同推进下,LoongCollector 展现出蓬勃的开源生命力,持续进行功能演进与生态发展。本次云栖大会,iLogtail 焕新升级为 LoongCollector,将会全面解读 LoongCollector 发展路线图。LoongCollector 作为专为大规模分布式应用设计的可观测性数据采集 Agent 与端到端 Pipeline 解决方案,旨在以高度稳定性和效率赋能可观测领域。

(3)正式发布可观测中文社区

为了进一步帮助开发者更好的学习与掌握丰富与广泛的可观测开源项目,阿里云正式发布可观测中文社区,实现可观测相关的知识共享。可观测中文社区作为一个以“运维可观测”为核心的开放、包容、分享的技术社区,旨在聚集运维专家、开发者和爱好者,共同探讨、学习和分享可观测最佳实践与最新技术,与众多技术社区合作互助,共同探讨交叉领域的技术挑战,推动可观测领域的创新与进步。

更多企业以更低成本与门槛,构建高效便捷、安全稳定的可观测体系

目前,阿里云可观测产品家族在全球 80 余个可用区为百万企业级用户提供高效便捷、安全稳定的可观测服务,其中不乏米哈游、新东方、畅捷通、哈啰出行等行业领军企业,真正做到为千行百业的业务稳定性与安全性保驾护航。

中国茶饮连锁品牌茶百道技术总监马晓超表示“在与开源方案成本持平的前提下,应用实时监控服务 ARMS 丰富且全面的全栈观测与告警能力,使茶百道快速建立运维观测与响应能力,故障恢复效率提升 50% 以上,故障恢复耗时缩短 50%, 真正做到用可观测为业务迅猛发展保驾护航。”

智能终端产品和移动互联服务提供商传音控股运维负责人表示“借助 Prometheus、Grafana 等可观测产品,传音控股建立全新可观测技术能力后,不仅提升问题诊断效率,还大幅提升用户体验。在此基础上,结合其他云原生新技术方案,业务上线效率提高 60%, 对高效业务创新起到至关重要的作用。”

智能化、数字化、数据驱动的智能出行科技公司极氪表示“基于阿里可观测产品推行的应急响应机制与 ChatOps 协同机制,极数 BI 业务整体告警事件接手率达到 100%,告警平均恢复耗时缩短 50%+。”

“以阿里云可观测产品家族为代表的云原生可观测工具,正引领着 AI-native 可观测加速迈向智能化。企业用户可以像‘搭积木’一样轻松、灵活地构建可观测体系,更高效地管理与观测 IT 资源与服务,为 AI 创新夯实技术底座。”阿里云云原生应用平台负责人丁宇表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1544972.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

撼动集团:名字背后的故事与深远意蕴

标题:撼动集团:名字背后的故事与深远意蕴 在东方文化的璀璨星空中,每一个字都承载着厚重的历史与深邃的文化。撼动(中国)集团有限公司,其名如雷贯耳,蕴含着力量与智慧的光辉。集团之名非偶然之作…

监控电脑屏幕的软件叫什么?分享8款电脑监控神器,赶紧Get吧!

在现代企业管理中,监控员工的电脑屏幕已成为提升效率、确保信息安全的重要手段。无论是管理人员想要了解工作进展,还是企业需要保障数据安全,屏幕监控软件都能提供强大的支持。 本文将为大家推荐8款电脑监控神器,帮助企业更好地掌…

Leetcode面试经典150题-39.组合总和

给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates 中的 同一个 数字可以 无限制重复被选取 。如…

水墨风度——书圣故里书画名家晋京展亮相荣宝斋大厦

9月22日,由中国书画文化发展促进会、北京砚文化发展研究会、临沂市委宣传部、临沂市慈善联合总会等部门联合举办的“水墨风度——书圣故里书画名家晋京展”在北京市荣宝斋大厦开幕。 本次展览立足“弘扬优秀传统文化、繁荣文艺精品创作”,以“水墨风度”…

【5米光学卫星(资源一号02D/02E卫星)】

5米光学卫星(资源一号02D/02E卫星) 5米光学卫星,也被称为资源一号02D和02E卫星,是中国在高光谱遥感领域的重要成果,旨在提高自然资源的定量化调查监测能力,并支持国家各个领域的需求。以下是对这两颗卫星的…

Vue路由vue-router的简单用法

vue-router ‌Vue Router‌是Vue.js的官方路由管理器,用于构建单页应用中的页面路由。它提供了丰富的功能,包括路由定义、路由跳转、路由参数传递、嵌套路由等,使得开发者能够方便地管理应用的路由结构。 安装 npm install vue-routerDemo…

从零开始的软件开发详解:数字药店系统源码与医保购药APP

很多小伙伴们疑问,医保购药APP是如何开发的,今天我将从零数字药店系统源码开始为大家提供一条清晰的实现方案。 一、技术架构设计 在开发医保购药APP之前,首先需要明确技术架构。一般来说,APP的技术架构可以分为前端和后端。 1…

CS创世8GB SD NAND的低功耗特性

在电子设备不断追求低功耗的今天,CS创世半导体的8GB SD NAND芯片以其低功耗特性脱颖而出。这款芯片的读写电流仅为15mA,相较于同类产品,其功耗显著降低,这不仅延长了设备的使用时间,还减少了对电池的依赖。这种低功耗特…

828华为云征文|Flexus云服务器X实例:在Docker环境下搭建java开发环境

828华为云征文|Flexus云服务器X实例:在Docker环境下搭建java开发环境 引言一、Flexus云服务器X实例介绍1.1 Flexus云服务器X实例简介1.2 主要使用场景 二、购买Flexus云服务器X实例2.1 购买规格参考2.2 查看Flexus云服务器X实例状态 三、远程连接Flexus云…

Q必达任务脚本

文章目录 1.购买服务器地址2.部署教程3. 代码如下4. 如何联系我 1.购买服务器地址 服务器购买地址 https://t.aliyun.com/U/rUHk58 若失效,可用地址 https://www.aliyun.com/activity/wuying/dj?source5176.29345612&userCode49hts92d 2.部署教程 2024年最…

了解法国游戏玩家:应该知道的关键见解

随着中国开发商向全球市场扩张,了解不同地区游戏玩家的偏好和行为至关重要。法国拥有丰富的游戏文化,呈现了一个独特的市场,开发商必须考虑这些独特的功能才能取得成功。以下是中国开发者应该注意的法国游戏玩家的关键特征: 偏好…

VmWare安装虚拟机教程(centos7)

VMWare下载: 下载 VMware Workstation Pro - VMware Customer Connect 安装包:(16的版本)免费!(一个赞就行) 一直点下一步即可,注意修改一下安装位置就好 二、安装虚拟机 安装虚…

【Java】虚拟机(JVM)内存模型全解析

目录 一、运行时数据区域划分 版本的差异: 二、程序计数器 程序计数器主要作用 三、Java虚拟机 1. 虚拟机运行原理 2. 活动栈被弹出的方式 3. 虚拟机栈可能产生的错误 4. 虚拟机栈的大小 四、本地方法栈 五、堆 1. 堆区的组成:新生代老生代 …

Redis: 特点,优势,与其他产品的区别以及高并发原理

入门Redis概述 1 )选择Redis是因为其高性能 因为 Redis 它数据存储的机制是存在内存中的,减少了传统关系数据库的磁盘IO它是单线程的保证了原子性,它还提供了事务,锁等相关的机制 2 )Redis 环境安装配置 linux 或 d…

【Python-GUI图形化界面-PyQt5模块(3)】——Qwidget核心模块

本文旨在带大家学习Python中的一种GUI图形化界面模块——PyQt5模块,将为大家详细了解PyQt5模块中函数的参数和使用: 一、PyQt5简介 PyQt是Qt框架的Python语言实现,由Riverbank Computing开发,是最强大的GUI库之一。 官方网站&a…

Qt-QSpinBox输入类控件(32)

目录 描述 属性 信号 使用 描述 微调框,如下,运行用户进行细微数据的操作,点击按钮,数据就会发生 “微调” 属性 value存储的数值.singleStep每次调整的"步⻓".按下⼀次按钮数据变化多少.displayInteger数字的进制…

云服务器是干什么的?

随着云计算的发展,云服务器的功能逐步完善。但是还有不少用户不清楚云服务器是干什么的?云服务器提供了一种灵活、可扩展的计算解决方案,适用于各种在线业务和项目。提供虚拟化的计算资源是云服务器最基本也是最重要的功能。 云服务器是干什…

leetcode第169题:多数元素

给定一个大小为 n 的数组 nums ,返回其中的多数元素。多数元素是指在数组中出现次数 大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在多数元素。 示例 1: 输入:nums [3,2,3] 输出:3 示例 …

内置函数sorted()与方法sort()的区别、内置函数reversed()与方法reverse()的区别

1、内置函数sorted()与方法sort() #内置函数sorted()与方法sort()的区别 #定义一个列表ls ls[4,3,6,7,9] print(sorted(ls)) print(ls)#sorted函数不会改变原列表的顺序,它只是生成了一个新列表(临时排序,不会改变与列表顺序) pr…

ARM单片机的内存分布(重要)

ARM单片机的内存分布(重要) 一、S32K344的内存布局 MEMORY {int_pflash : ORIGIN 0x00400000, LENGTH 0x003D4000 /* 4096KB - 176KB (sBAF HSE)*/int_dflash : ORIGIN 0x10000000, LENGTH 0x00020000 /* 128KB …