使用日志服务告警为您的OSS保驾护航

日志服务SLS告警作为一站式运维告警平台,为OSS的访问提供了定制化的告警规则。您只需要在日志服务控制台进行简单配置,即可完成对OSS访问指标的监控,并在指标出现异常时及时收到告警通知。

场景描述

客户A是一家多媒体公司,主要产品有短视频App。用户可以在上面发布和观看短视频。客户A使用了OSS中名为examplebucket的存储空间来存储用户产生的短视频,App每天的用户活动具有一定的周期性,一般情况下深夜的PV较低,其他时段PV较高。

每天9点~10点之间的PV访问基本持平。例如每月5号9点~10点的PV是50万,6号9点~10点的PV是51万可以理解为正常波动。如果6号9~10点的PV出现陡增至100万或者陡降至20万的情况,您可以通过创建日志服务告警规则,指定在某个时间段内PV陡增或者陡降20%时发出告警,并通过钉钉机器人推送告警信息。

前提条件

已为目标存储空间examplebucket开启实时日志查询并记录生成的Project名称。

说明

开启实时日志查询后,日志服务将自动生成名为oss-log-store的Logstore,该Logstore保存在格式为oss-log-阿里云账号ID-region的Project下。请记录生成的Project名称,用于配置后续的通知渠道及告警阈值。开启实时日志查询的具体步骤,请参见查询实时日志。

操作步骤

  1. 通过SLS OSS内置行动策略设置告警触发后的通知渠道。

    1. 登录日志服务控制台。

    2. 在Project列表区域,单击目标Project。

    3. 在左侧导航栏中,单击告警

    4. 告警中心页面,选择通知策略 > 行动策略

    5. 行动策略页面,单击SLS内置行动策略名右侧的修改

    6. 第一行动列表页签,渠道选择钉钉自定义,然后将请求地址修改为钉钉群的机器人WebHook地址。其他选项,保留默认配置。

      关于如何获取WebHook地址的具体操作,请参见钉钉-自定义。同时,日志服务支持多种通知渠道,例如通过短信、语音、邮件等形式推送给指定用户或用户组。详情请参见通知渠道说明。

    7. 单击确认

  2. 设置触发告警阈值。

    1. 告警规则页签,新建告警下拉选择从模版新建

    2. 单击OSS监控,然后单击OSS访问PV同比昨日变化率过高告警,触发条件选择有数据匹配,表达式修改为(change_rate >= 0 && change_rate > 20) || (change_rate < 0 && (-1) * change_rate > 20),其他参数保留默认配置。

    3. 单击确定

  3. 满足以上触发条件时,将发送告警通知。

常见问题

问题描述:告警渠道选择钉钉机器人,但是钉钉通知发送失败,且出现如下错误。

{"errcode":310000,"errmsg":"sign not match"}
{"errcode":310000,"errmsg":"keywords not in content"}

问题原因:机器人的安全设置有误,导致通知被钉钉拦截。

解决方法:将安全设置配置为自定义关键字,其中一个关键字设置为“告警”,因为通知内容中至少包含其中1个关键字才可以发送成功。配置详情,请参见钉钉-自定义。

当用户的请求量超出OSS使用限制后会触发OSS流控,触发流控会对用户的请求产生一定的影响。您只需要在云监控管理控制台进行简单的配置,即可完成对OSS请求指标的实时监控,并在触发流控时及时收到告警通知。

背景信息

OSS提供了用户级别和Bucket级别的流控,支持的类别主要包括带宽流控和QPS流控。当您访问OSS的QPS、带宽超出OSS使用限制时,访问速度会受到OSS流控的限制。如果触发了带宽流控,则访问OSS的延迟会增加。如果触发了QPS流控,则OSS会丢弃部分请求。关于带宽流控和QPS流控的限制信息,请参见使用限制。

您可以通过云监控管理控制台创建OSS流控事件告警规则,并指定在监测到用户发送到OSS指定类型的请求量触发流控或达到汇报阈值时,以短信、邮件和钉钉机器人的方式向指定联系人组发送报警信息。

前提条件

已创建用于接收流控报警信息的联系人组,并向联系人组添加多个联系人。具体操作,请参见创建报警联系人或报警联系人组。

创建报警规则

  1. 登录云监控控制台。

  2. 在左侧导航栏,选择事件中心 > 系统事件

  3. 事件监控页签,单击另存为报警

  4. 创建/修改事件报警面板,设置以下参数,其他参数保留默认值,然后单击确定

参数

说明

报警规则名称

设置为rule1。

产品类型

选择对象存储OSS

事件类型

选择全部类型

事件等级

选择警告信息

事件名称

选择全部事件。关于云监控支持的OSS流控事件的含义及说明,请参见云监控支持的OSS流控事件。

报警联系人组

选中报警方式下的报警通知,然后选择已创建的报警联系人组。

通知方式

选择Warning(短信+邮件+WebHook)

以上事件告警规则配置完成后,如果请求触发OSS流控或者超过汇报阈值,则云监控会自动向指定的联系人发送报警通知。报警通知中包含报警资源、事件名称、事件类别以及事件详情等信息。关于报警通知的更多信息,请参见报警通知。

重要

流控报警为每分钟一次,一分钟内如果有30s或以上时间触发流控则产生报警。汇报阈值为每10分钟一次,只要1s内触发汇报阈值则产生报警。

报警通知

如果指定联系人收到了流控触发报警通知,请参见以下表格了解各类流控事件触发的原因、影响、对应的解决方法以及事件的详细内容。

重要

如果您希望在收到User级别的报警事件后,查看归属当前用户下所有Bucket的流量使用情况,请提前创建OSS监控大盘。具体步骤,请参见创建系统预置大盘。

报警通知事件名称

说明

下表中的汇报阈值=流控阈值*0.8。

事件名称

触发原因

影响

解决方法

BucketIngressBandwidthThresholdExceeded

当前Bucket的上行带宽之和大于Bucket的上行流控阈值时触发此事件。

上传请求将会被流控且请求延迟会增加。

合理降低上传请求并发数。

BucketEgressBandwidthThresholdExceeded

当前Bucket的下行带宽之和大于Bucket下行带宽流控阈值时触发此事件。

下载请求将会被流控且请求延迟会增加。

合理降低下载请求并发数。

BucketQpsThresholdExceeded

当前Bucket的每秒请求数之和大于Bucket每秒请求数流控阈值时触发此事件。

OSS会拒绝响应部分请求并返回503。

合理降低每秒请求数。

UserIngressBandwidthThresholdExceeded

归属当前用户的所有Bucket的上行带宽之和大于上行带宽流控阈值时触发此事件。

上传请求将会被流控且请求延迟会增加。

合理降低上传请求并发数。

UserEgressBandwidthThresholdExceeded

归属当前用户的所有Bucket的下行带宽之和大于下行带宽流控阈值时触发此事件。

下载请求将会被流控且请求延迟会增加。

合理降低下载请求并发数。

UserQpsThresholdExceeded

归属当前用户的所有Bucket的每秒请求数之和大于每秒请求数流控阈值时触发此事件。

OSS会拒绝响应部分请求。

合理降低每秒请求数。

BucketImageCpuThresholdExceeded

当前Bucket中所有用于处理图片请求的CPU核数之和大于Bucket CPU核数流控阈值时触发此事件。

图片处理类型的请求延迟会增加。

合理降低图片处理请求并发数。

UserImageCpuThresholdExceeded

归属当前用户的所有Bucket中用于处理图片请求的CPU核数之和大于该用户的CPU核数流控阈值时触发此事件。

图片处理类型的请求延迟会增加。

合理降低图片处理请求并发数。

BucketMirrorIngressBandwidthThresholdExceeded

当前Bucket的所有镜像回源类型请求的带宽之和大于流控阈值时触发此事件。

镜像回源请求延迟会增加。

合理降低镜像回源类型请求并发数。

BucketMirrorQpsThresholdExceeded

当前Bucket的所有镜像回源类型的每秒请求数之和大于镜像回源QPS流控阈值时触发此事件。

OSS会拒绝部分镜像回源类型请求。

合理降低镜像回源类型每秒请求数。

UserMirrorIngressBandwidthThresholdExceeded

归属当前用户的所有Bucket内的镜像回源类型上传请求流量之和大于用户镜像回源带宽流控阈值时触发此事件。

镜像回源请求延迟会增加。

合理降低镜像回源类型请求并发数。

UserMirrorQpsThresholdExceeded

归属当前用户的所有Bucket每秒发出的镜像回源类型请求数之和大于用户镜像回源QPS流控阈值时触发此事件。

OSS将拒绝响应部分镜像回源类型的请求。

合理降低镜像回源类型每秒请求数。

BucketIngressBandwidth

当前Bucket的上行请求带宽之和大于汇报阈值时触发此事件。

Bucket的上行请求延迟会增加。

合理降低上行请求并发数。

BucketEgressBandwidth

当前Bucket的下行请求带宽之和大于汇报阈值时触发此事件。

Bucket的下行请求延迟会增加。

合理降低下行请求并发数。

UserIngressBandwidth

归属当前用户的所有Bucket的上行请求带宽之和大于汇报阈值时触发此事件。

用户的上行请求延迟会增加。

合理降低上行请求并发数。

UserEgressBandwidth

归属当前用户的所有Bucket的下行请求带宽之和大于汇报阈值时触发此事件。

用户的下行请求延迟会增加。

合理降低下行请求并发数。

报警通知详细内容

参数

说明

示例值

AvgSeverity

流控的程度。数值越高代表流控越强,延时越高。取值范围为0~100。

10

QosType

触发的流控类型。取值如下:

  • IngressBandwidth:上行带宽流量。

  • EgressBandWidth:下行带宽流量。

  • Qps:每秒请求数。

IngressBandwidth

TrafficSource

触发流控的流量来源。取值如下:

  • intranet:内网带宽。

  • extranet:外网带宽。

  • net_all:总带宽(同时包含内网带宽和外网带宽)。

net_all

如何查看User级别的流量使用情况?

以下以收到报警事件UserEgressBandwidthThresholdExceeded为例,您可以通过以下步骤查看归属当前用户下各个Bucket的流量使用情况。

  1. 登录云监控控制台。

  2. 在左侧导航栏,选择企业云监控 监控大盘

  3. 监控大盘页面,单击OSS监控大盘右侧的查看

  4. 根据流控报警类型,在流量监控区域查看具体哪些Bucket占用了较高的流量。

    traffic

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1557211.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【机器学习】探索机器学习在医疗影像分析中的应用

1. &#x1f680; 引言1.1 &#x1f680; 医疗影像分析的现状与发展趋势1.2 &#x1f4dc; 机器学习在医疗影像分析中的核心概念1.3 &#x1f3c6; 医疗影像分析在临床应用中的作用 2. &#x1f50d; 医疗影像分析的演变与创新2.1 &#x1f31f; 医疗影像分析的发展历程2.2 &am…

通过实时可视性转变云安全

Upwind首席执行官 Amiram Shachar 讨论了混合和多云环境中云安全的复杂性。 他概述了深入了解配置和实时洞察的必要性&#xff0c;以实现敏捷性和安全性之间的平衡。 还分享了解决错误配置和确保合规性的策略&#xff0c;建议在云部署中采取主动的风险管理方法。 随着混合云…

安装Spark-单机部署,Standalone集群部署,Spark on Yarn实现

目录 单机部署spark本地模式部署 Anaconda部署Python(3台机器都需要) Spark本地模式部署 Spark Python Shell Spark的Standalone集群部署 Standalone集群架构 Standalone集群部署 Standalone集群启动 Standalone集群测试 Spark on YARN的实现 Spark on YARN&#xf…

kubernetes集群公共服务 Harbor

首先&#xff0c;还是需要新创建一个虚拟机&#xff0c;就像之前一样&#xff0c;然后启动虚拟机,设置主机名和网络&#xff0c;网关&#xff0c;DNS等。 接下来检查防火墙,selinux是否关闭&#xff0c;以及是否做了时钟同步。 一、 docker-ce安装 1.1 获取YUM源 使用阿里云开源…

自动驾驶系列—揭秘毫米波雷达:自动驾驶的眼睛如何看穿复杂环境?

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

SpringBoot开发——SpringSecurity安全框架17个业务场景案例(二)

文章目录 一、Spring Security 常用应用场景介绍二、Spring Security场景案例6、CSRF 保护(CSRF Protection)6.1 Spring Security 配置6.2 业务逻辑代码7、密码编码(Password Encoding)7.1 Spring Security 配置7.2 业务逻辑代码7.3 控制器8、方法级安全性(Method Securit…

李飞飞:我不知道什么是AGI

图片来源&#xff1a;Stanford University 你对人工通用智能&#xff08;AGI&#xff09;感到困惑吗&#xff1f;这就是 OpenAI 执着于最终以“造福全人类”的方式创造的东西。你可能想认真对待他们&#xff0c;因为他们刚筹集了 66 亿美元以更接近这个目标。 但如果你仍然在…

国外电商系统开发-运维系统文件上传-快速上传

点击【快速】&#xff0c;意思是速度快&#xff0c;步骤简单 在上面的输入中&#xff0c;是输入您要把您的文件传到远程服务器的哪个目录下&#xff0c;注意&#xff0c;比如您选择了10个服务器&#xff0c;10个服务器的目标路径都一样&#xff0c;那么您在这里点击【快速】即可…

《动手学深度学习》Pytorch 版学习笔记一:从预备知识到现代卷积神经网络

前言 笔者有一定的机器学习和深度学习理论基础&#xff0c;对 Pytorch 的实战还不够熟悉&#xff0c;打算入职前专项突击一下 本文内容为笔者学习《动手学深度学习》一书的学习笔记 主要记录了代码的实现和实现过程遇到的问题&#xff0c;不完全包括其理论知识 引用&#x…

Windows VSCode 配置 Java 环境 (Maven)

一、简介 这篇博客介绍一下 Windows 环境中&#xff0c;使用 VSCode 编译、调试、启动、运行、发布 Java 项目&#xff08;Maven&#xff09;。 二、Maven 安装 如果已经安装过 Maven 可以跳过此步骤。Maven 的安装&#xff0c;可以参照博客 Windows 安装 Maven 并配置环境变…

织物布匹疵点检测数据集,布匹缺陷检测数据集 标注工具:LabelImg 数量:已标注1084张(5类);未标注:2000余张

织物疵点检测数据集&#xff0c;布匹缺陷检测数据集 标注工具&#xff1a;LabelImg 数量&#xff1a;已标注1084张(5类&#xff09;&#xff1b;未标注&#xff1a;2000余张 简介&#xff1a;织物疵点检测是一种基于计算机视觉技术的自动化检测方法&#xff0c;旨在通过对织物图…

【STM32开发之寄存器版】(七)-PWM脉冲宽度调制

一、前言 PWM简介 PWM&#xff08;脉宽调制&#xff09;是一种通过调节信号的脉冲宽度来控制功率输出的技术。其基本原理是保持固定频率的信号&#xff0c;将其高电平和低电平的持续时间调整&#xff0c;达到控制平均功率的目的。应用方面&#xff0c;PWM广泛用于电机控制、LED…

C语言基础题(大合集1)

1. Hello World! 写一个程序 &#xff0c; 在控制台上输出 &#xff1a; Hello World! #include <stdio.h> int main() {printf("Hello World!\n");return 0; }main 函数是程序的入口 &#xff0c; 一个工程有且仅有一个 main函数 代码是从 main 函数的第一行开…

数学概念算法-打印100以内的素/质数

素数&#xff1a;只能被1和自己整除的数 暴力破解 埃氏筛选 找到第一个数字&#xff0c;如果它是素数&#xff0c;则把它的倍数全部划掉 比如数字2是素数&#xff0c;那么 4,6,8,10,12。这些数字肯定不是素数&#xff0c;所以不用再考虑&#xff0c;直接划掉即可 第二步&#…

SQL注入靶场sqli-labs less-4

sqli-labs靶场第三关less-4 1、确定注入点 http://192.168.128.3/sq/Less-4/?id1 http://192.168.128.3/sq/Less-4/?id2 有不同回显&#xff0c;判断可能存在注入&#xff0c; 2、判断注入类型 输入 http://192.168.128.3/sq/less-4/?id1 and 11 http://192.168.128.3/sq/l…

C++(异常)

目录 C语言传统的处理错误的方式 传统的错误处理机制 C异常概念 异常的使用 异常的抛出和捕获 异常的抛出和匹配原则 在函数调用链中异常栈展开匹配原则 异常的重新抛出 异常安全 异常规范 自定义异常体系 C标准库的异常体系 异常的优缺点 C异常的优点 C异常的缺…

DB_GPT excel研究

DB_GPT excel研究 摘要视频简介源码分析excel文档上传预处理对话 摘要 DB_GPT集成了很多对话方式&#xff0c;其中呢就有关于excel对话的模块&#xff0c;我搜集各大web好像都没有关于这个模块的研究&#xff0c;于是乎就自行研究了对于excel对话的的功能 如果是想看与数据库…

Golang | Leetcode Golang题解之第462题最小操作次数使数组元素相等II

题目&#xff1a; 题解&#xff1a; func partition(a []int, l, r int) int {x : a[r]i : l - 1for j : l; j < r; j {if a[j] < x {ia[i], a[j] a[j], a[i]}}a[i1], a[r] a[r], a[i1]return i 1 }func randomPartition(a []int, l, r int) int {i : rand.Intn(r-l1…

毕设 大数据电影数据分析与可视化系统(源码+论文)

文章目录 0 前言1 项目运行效果2 设计概要3 最后 0 前言 &#x1f525;这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕业答辩的要求&#xff0c;这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师…

51 单片机最小系统

一、51 单片机最小系统概述 51 单片机最小系统是一个基于 51 单片机的最小化电路系统&#xff0c;它包含了使单片机能够正常工作的最少元件。这个系统主要用于学习和实验目的&#xff0c;帮助学习者在没有复杂电路的情况下快速了解 51 单片机的工作原理&#xff0c;其重要性不…